Construindo pontes: o fortalecimento de mídias negras, indígenas e periféricas na Wikipédia

InternetLab produz levantamento sobre o uso de mídias negras, indígenas e periféricas/territoriais como fontes na Wikipédia Lusófona, apontando sub representações, desafios e diálogos para a construção de um conhecimento online mais diverso.

Notícias Cultura e conhecimento 15.12.2023 por Stephanie Lima, Fernanda K. Martins, Alessandra Gomes e Catharina Vilela

De 2021 a 2023, o InternetLab em parceria com a Fundação Wikimedia desenvolveu uma fellowship cujo objetivo foi contribuir com reflexões sobre produção e circulação de conhecimento – online e offline – de pessoas negras e indígenas. No decorrer de 2022, realizamos um Seminário onde reunimos um conjunto de atores sociais que integram movimentos negros, indígenas e pelo conhecimento livre, bem como atuam na academia, terceiro setor e/ou sociedade civil. Como resultado publicamos o mapeamento “Transformação, desafios e estratégias após 10 anos da Lei de Cotas“, no qual, ao sistematizar o que ouvimos dessas(es) agentes, pudemos compreender melhor a relação entre a internet e a busca pela equidade do conhecimento. Nessa publicação, detalhamos um olhar para o passado e para o futuro no que tange ao desejo de alcançar uma produção e circulação de conhecimento mais igualitária.

Uma das estratégias fundamentais que identificamos, em diálogo com atores e atrizes sociais citadas, foi a “necessidade urgente de fortalecer as mídias negras e indígenas”. Essa estratégia parte da compreensão de que essas mídias se colocam como espaços cruciais para a divulgação, acesso e reconhecimento do conhecimento oriundo dessas populações. Em outras palavras, esses meios de comunicação são reconhecidos como espaços essenciais para disseminar o conhecimento produzido por essas comunidades, especialmente considerando as barreiras existentes nos espaços tradicionais de produção, sejam eles acadêmicos ou jornalísticos. Além disso, dado o contexto histórico e político que enfoca a ampliação do debate sobre desinformação, regulação de plataformas e sustentabilidade do jornalismo, a relação estratégica entre divulgação e fortalecimento torna-se ainda mais evidente.

Acreditamos que um caminho central para combater as desigualdades no acesso e produção de conhecimento por populações historicamente vulnerabilizadas passa pelo fortalecimento e, consequentemente, pela divulgação de meios de comunicação que difundem esses conhecimentos. Vale ressaltar, que ao olharmos mais atentamente para o campo destas mídias a categoria “periférica” veio à tona, ou seja, no contexto brasileiros muitos meios de comunicação que são formados majoritariamente por pessoas negras ou indígena se autodenominam como “periféricos” ou “territoriais”. Para investigar isso mais a fundo, decidimos analisar como o conteúdo produzido por mídias negras, indígenas e periféricas/territoriais no Brasil é utilizado na Wikipédia Lusófona, que é a maior enciclopédia online gratuita e um dos sites mais acessados no mundo – quando mencionamos essas definições de mídias, estamos nos referindo a veículos de comunicação cujo foco está em temas relacionados e/ou que são predominantemente compostos por pessoas negras e indígenas.

 Para tanto, tínhamos duas questões principais:

  1. Como a representatividade do conhecimento e da cultura de grupos historicamente marginalizados, como negros e indígenas, têm sido representado na Wikipédia?
  2. Quais são as vozes que respaldam essas informações e em qual contexto são apresentadas? 

Nossos esforços incluíram a realização de levantamentos abrangentes que permitiram analisar as subcategorias e os termos mais frequentemente empregados na Wikipédia, bem como identificar quais sites e fontes de mídia são mais comumente utilizados como referências na construção dos verbetes existentes. 

A partir dos dados coletados, propomos algumas considerações, mas, de antemão, sublinhamos a necessidade de ampliar os debates e reflexões sobre os usos dessas mídias como fontes em plataformas de conhecimento livre. 

Análise dos dados

A análise dos dados coletados compreendeu o cálculo das quantidades totais de citações, ou seja, as aparições em artigos da Wikipédia, para cada meio de comunicação ou subcategoria utilizada, seguido pelo processo de classificação desses dados. A seguir, detalhamos alguns dos resultados: 

i. Os 100 links de referências mais citados

Os links utilizados em referências apontam para uma localização específica na Internet, que pode ser uma matéria de um jornal, um artigo acadêmico, um site informativo do governo etc. Para saber quantas vezes uma determinada mídia digital foi referenciada, foi necessário realizar a contabilização considerando apenas a raiz do endereço url. Dessa forma, todos os links de todas as referências foram agregados de acordo com a raiz url compartilhada por eles. Após a agregação, foram calculados os totais e o ranqueamento decrescente.

ii. As 100 subcategorias mais utilizadas pelos artigos

Assim como uma seção de referências, os artigos da Wikipédia também possuem uma seção de categorias, onde são identificadas as categorias e subcategorias que melhor descrevem o conteúdo daquele artigo. Para contabilizar as mais frequentes, todas as categorias e subcategorias identificadas foram armazenadas em uma lista única para cálculos totais e ranqueamento.

iii. Demais totalizações

Os resultados obtidos nos itens 1 e 2 levaram a novas investigações que envolviam contabilizações e buscas de grupos ou termos mais específicos. Para estes casos, além do código Python, foi utilizada também a biblioteca Pandas para o manuseio das especificações.

iv. Análises específicas

Dadas as dificuldades de se identificar a presença de mídias negras, indígenas e periféricas/territoriais como fontes no levantamento geral, para obter esses dados realizamos um levantamento de algumas dessas mídias atuantes no Brasil hoje, o que tornou possível a  realização de análises específicas. 

Em um primeiro momento, partimos de uma busca ativa nas redes sociais, assim como em associações de jornalismo independentes, como a Ajor, buscando identificar mídias que correspondessem ao perfil desejado, ou seja, protagonizadas por pessoas negras, indígenas e periféricas/territoriais. Após essa busca, elencamos 21 mídias que identificamos como pertencentes a esses grupos e que estivessem  dentro dos critérios de confiabilidade da plataforma[1]. A lista completa das mídias selecionadas pode ser encontrada no gráfico 4.

Em um segundo momento, optamos pela realização de análises focadas nas subcategorias em que se encontravam os artigos que citam mídias negras, indígenas e periféricas/territoriais. O objetivo dessa abordagem foi compreender de forma ainda mais detalhada o tipo de conteúdo em que as mídias estudadas estavam sendo mobilizadas como referência. 

Resultados

i. No top 100, mais da metade das fontes citadas são estrangeiras ou de grandes conglomerados de mídia nacional

Inicialmente, conduzimos um levantamento dos 100 principais links referenciados na Wikipédia, identificando as fontes de conhecimento mais frequentemente citadas como referências para as informações na plataforma. Entre essas 100 fontes, 76 eram estrangeiras, e apenas 24 eram nacionais, com nenhuma delas pertencendo a mídias negras, indígenas e periféricas/territoriais.  Essa disparidade entre citações de fontes estrangeiras e nacionais reforça apontamentos já colocados por pesquisadores acerca da concentração de conhecimentos e artigos na Wikipédia Anglófona, com relação a outras línguas[2]. Dada essa disparidade, há um amplo conjunto de verbetes na Wikipédia Lusófona que são traduções de artigos originalmente da Wikipédia Anglófona, podendo ser a razão para essa diferença de citações observadas[3]. Em seguida, nos concentramos na análise das 50 principais fontes de mídia nacionais, excluindo qualquer influência externa ao país. As primeiras posições foram ocupadas pelos conglomerados de mídia do Brasil. A Rede Globo, que ocupou a Em seguida, nos concentramos na análise das 50 principais fontes de mídia nacionais, excluindo qualquer influência externa ao país. As primeiras posições foram ocupadas pelos conglomerados de mídia do Brasil. A Rede Globo, que ocupou a segunda posição no top 100, liderou o top 50, seguida pelo UOL, domínio edu.br (associado a instituições de ensino superior), Terra, Abril e Estadão. 

Gráfico 1. Fonte: InternetLab.

ii. No top nacional, sites governamentais e universidades do sudeste também ocupam altas posições

Gráfico 2. Fonte: InternetLab.

É notável que, além do domínio edu.br, que representa diversas instituições de ensino superior, outras duas universidades brasileiras conquistaram posições no top 50 de forma independente: a FGV na posição 18 e a PUC Rio na posição 25. O resultado levanta questões interessantes sobre como a produção de conhecimento são geograficamente distribuídos, pois é possível notar que, embora o domínio edu.br englobe um grande número de instituições, o conhecimento referenciado por duas universidades privadas localizadas na região sudeste do Brasil se destaca nas referências nacionais. 

Na continuação da pesquisa, exploramos o restante da lista das 50 fontes mais citadas na Wikipédia, que revelou uma gama diversificada de fontes, incluindo algumas estatais, como IBGE, Planalto, Senado, Câmara Federal, Assembleia Legislativa de São Paulo e Tribunal Superior Eleitoral. Apesar do Blogspot, WordPress e o Scielo não serem domínios nacionais, foram mantidos na listagem por possuírem conteúdos de diversas localidades. Os dois primeiros foram agrupados por ambos serem plataformas de conteúdo de blog, ocupando, assim, a sétima posição. Outras fontes de mídia conhecidas, como R7, Gazeta do Povo, Isto É e SBT, foram identificadas. Além do Scielo, fontes relacionadas à cultura e ao entretenimento, como sites de esportes, com foco específico em futebol, e ligados a escolas de samba também foram identificados.

iii. Há cinco vezes mais artigos sobre homens

Em uma etapa subsequente, coletamos as 100 subcategorias mais utilizadas na Wikipédia. Um achado relevante foi a disparidade na quantidade de artigos relacionados a homens em comparação com mulheres –  há quase cinco vezes mais artigos sobre homens. O que talvez possa estar relacionado com pesquisas que já apresentam uma concentração maior de editores homens, em relação a mulheres.

A partir desses dados, classificamos o top 100 em categorias gerais, buscando compreender os principais tópicos abordados pelos artigos. A categoria mais frequente, abrangendo 49 das 100 subcategorias mais utilizadas, foi o grupo “pessoas”, que incluiu homens, mulheres, pessoas nascidas em anos e décadas específicas, figuras importantes em eventos históricos, entre outros. Essas subcategorias foram seguidas por pesquisas relacionadas a cinema e televisão, biologia e astronomia. Nas posições finais, ficaram artigos relacionados a territórios e geografia, como conteúdos sobre países, estados e cidades, páginas sobre artistas e bandas, assim como uma categoria que se referia a jogos. Neste contexto, é relevante destacar a ausência de menção a mídias indígenas, negras e periféricas/territoriais no top 100 de referências nacionais e internacionais, dado que indica um déficit relevante de representação. 

Gráfico 3. Fonte: InternetLab.

iv. Nenhuma mídia indígena foi citada

A seguir, optamos pela realização de uma análise voltada especificamente para as mídias que eram foco do estudo, já que, a partir de levantamentos gerais, elas não foram citadas. Apesar da subcategoria “povos indígenas do Brasil” ter 789 artigos relacionais, nenhuma das mídias indígenas que listamos foram referenciadas pela Wikipedia. Apenas a agência de jornalismo Amazônia Real, que apesar de não se apresentar como uma mídia indígena tem como lema dar visibilidade às populações e questões da Amazônia – por isso categorizada como territorial -, foi citada em 116 artigos, mostrando assim que grande parte dos artigos relacionados diretamente à população indígena não cita fontes protagonizadas por essa população. 

Gráfico 4. Fonte: InternetLab.

A mídia negra mais referenciada, de acordo com nossas análises, é o Portal Geledés, com um total de 377 menções em nossos levantamentos. Vale destacar que, apesar do Geledés ser uma organização da sociedade civil, a relevância do seu portal como veículo de comunicação o fez ser incluído  em nosso levantamentos. A presença do Geledés no ranking corroborou a nossa leitura. Do conjunto de artigos que utilizou o Portal como fonte, 201 deles mencionavam pessoas, grande maioria negras, 42 abordavam temas culturais, notadamente o carnaval, e 19 se debruçavam sobre o universo da música, englobando bandas e artistas. 

Embora nossa abordagem inicial tenha optado por seguir as classificações já estabelecidas nas 100 subcategorias principais, a inclusão de mídias negras e periféricas/territoriais nos levou a adotar novas estratégias de categorização. Isso ocorreu porque 12 dos artigos nos quais o Geledés foi mencionado estavam relacionados a termos usados para se referir a grupos historicamente minorizados, como, por exemplo, “sapatão” e “pardo”. Além disso, outros 12 artigos abordavam questões de violência, como o racismo, práticas de tortura e massacres. Por fim, a temática do nazismo e instituições correlatas apareceu em 8 dos artigos que citavam esta mídia.

Esses dados nos levam a questionar de que maneira e em quais contextos as mídias negras são referenciadas. Diferentemente do que observamos no caso das mídias indígenas, é possível afirmar que elas desfrutam de certa visibilidade, ainda que pequena diante do universo da Wikipédia e da consideração de que, a Globo, por exemplo, foi referenciada em 516.284 artigos. No entanto, nos questionamos as razões pelas quais as mídias negras emergiram predominantemente em contextos relacionados a pessoas negras, grupos minorizados ou situações de violência. Seria esse fenômeno resultado de como as mídias negras são escolhidas para referenciar temas restritos ou as próprias mídias negras optam por concentrar sua atuação jornalística nessas áreas específicas? Em outras palavras, estamos diante de uma situação em que as mídias negras são mencionadas apenas em circunstâncias particulares na Wikipédia Lusófona ou essa vinculação é resultado de uma orientação editorial intencional por parte dessas próprias mídias?

v. As mídias negras, indígenas e periféricas/territoriais são pouco citadas e sua presença se concentra na subcategoria “pessoas”

Por fim, optamos pela realização de uma análise das subcategorias referentes aos artigos que citavam as mídias selecionadas. A ideia era mapear, a partir do próprio sistema de categorização da Wikipédia, em que contextos as mídias negras, indígenas e periféricas/territoriais estavam sendo mobilizadas como referência. E, assim, buscar responder pelo menos parcialmente os questionamentos que havíamos feito no tópico anterior.

No total, os artigos que faziam menção a alguma das mídias consideradas apresentaram 1.542 subcategorias únicas, totalizando 5.873 ocorrências. A análise do gráfico abaixo revela que a maioria das subcategorias identificadas está associada a artigos que mencionam mídias negras. Esse dado reforça a conclusão obtida no tópico anterior, uma vez que, de acordo com o Gráfico IV, as mídias negras são, em geral, mais citadas do que as mídias indígenas e periféricas/territoriais. Portanto, é plausível esperar que também abranjam um número maior de subcategorias, conforme evidenciado pelos resultados.

Gráfico 5. Fonte: InternetLab.

Com o intuito de proporcionar uma visualização mais abrangente da frequência das 1.542 subcategorias, foi realizada uma agregação com base em temas gerais. Esse processo resultou na formação de 15 grupos, conforme ilustrado no gráfico subsequente:

Gráfico 6. Fonte: InternetLab.

A análise do gráfico revela que quase 70% das subcategorias estão associadas a artigos sobre “pessoas”, totalizando 4.050 ocorrências. Essa quantidade, quando consideramos o contexto geral da Wikipédia lusófona, é relativamente pequena, pois só a subcategoria “homens”, exposta no gráfico III,  apresenta quase 40.000 ocorrências, evidenciando uma disparidade significativa entre a quantidade de citações das mídias consideradas e a magnitude da subcategoria “pessoas”. 

O grupo “pessoas” também predomina na visualização por tipo de mídia, conforme ilustrado no próximo gráfico:

Gráfico 7. Fonte: InternetLab.

De acordo com os dados coletados, artigos sobre “pessoas” e “conceitos e história” estão entre as subcategorias mais frequentes em ambos os tipos de mídia, embora com quantidades significativamente distintas. É relevante ressaltar que as mídias indígenas não estão representadas no gráfico acima porque não foram identificadas referências a nenhuma delas. 

Nesse contexto, é relevante destacar ainda a predominância das mídias periféricas/territoriais em subcategorias específicas, como geografia, botânica e religião, ao passo que as mídias negras apresentam maior recorrência em áreas como arte e premiações. Embora esses dados não forneçam respostas definitivas, eles podem sugerir pistas sobre a utilização de mídias específicas, evidenciando o limitado espaço que determinados grupos ainda possuem como fonte de conhecimento.

Reflexões a serem consideradas 

A realização dessa análise nos leva a uma compreensão fundamental: mesmo no espaço online, as narrativas parecem ser predominantemente moldadas por mídias brancas e hegemônicas. Isso ressalta que o lugar ocupado por mídias independentes, notadamente as de origem negra, indígena e periférica, ainda é limitado e muitas vezes restrito a abordagens simplistas e estereotipadas, centrando-se excessivamente em questões relacionadas à raça e à violência.

Diante dos resultados revelados por nossa pesquisa, surge um convite e, ao mesmo tempo, uma pergunta à comunidade Wiki e ao vasto campo do conhecimento livre: como podemos colaborar ativamente para mitigar as disparidades na produção e no acesso ao conhecimento, especialmente para as populações historicamente marginalizadas? 

A resposta a essa pergunta exige uma reflexão profunda e um compromisso renovado com a diversidade e a inclusão. A seguir, delineamos recomendações e aspectos que julgamos fundamentais na busca pelo fortalecimento das vozes de pessoas negras, indígenas e periféricas/territoriais na Wikipédia:

  1. Em primeiro lugar, é fundamental reconhecer o papel vital das mídias negras, indígenas e periféricas/territoriais como guardiãs e disseminadoras do conhecimento dessas populações. O chamado à ação nos leva ao reconhecimento de que podemos e devemos trabalhar juntas(os) para fortalecer suas vozes, garantindo que sejam ouvidas não apenas quando se trata de temas relacionados à sua identidade racial ou à violência que enfrentam, mas também em uma gama diversificada de tópicos, da cultura à ciência.
  2. É  crucial repensar como as referências são construídas na Wikipédia e em outras plataformas de conhecimento livre. Podemos buscar maneiras inovadoras de destacar fontes provenientes de mídias negras, indígenas e periféricas, valorizando assim suas contribuições em uma variedade de contextos. Esse esforço não apenas enriquecerá a diversidade do conhecimento disponível online, mas também promoverá uma compreensão mais rica das culturas e das experiências dessas comunidades.

Coleta de dados

Para esta pesquisa, foi utilizada uma das cópias (dump) de julho de 2023 disponibilizadas pela Wikipédia, a ptwiki-20230520-pages-articles-multistream. Esta cópia contém os títulos de todas as páginas existentes em 01 de Julho de 2023 na Wikipédia Lusófona[4]. O arquivo continha um total de 2.562.293 páginas. Desse total, 1.847.109 páginas eram referentes a artigos da Wikipédia. De posse dos títulos, o próximo passo foi acessar de forma automatizada cada uma das páginas e extrair os dados utilizados nesta pesquisa: as referências digitais, ou seja, as que apontavam para algum link e as identificações de categorias de cada artigo. Para tanto, foi implementado um código em Python para realizar esses acessos via API da Wikipédia. Todos os dados coletados foram armazenados em um dataset *.csv. O passo seguinte foi tratar os dados, que envolveu correção e padronização de endereços url que possuíam erros de escrita. Para esta etapa também foi implementado um código Python que realizava estas tarefas utilizando Regex.

Com os dados coletados e tratados, a análise de dados foi utilizada para a identificação de recortes para investigação e geração dos gráficos aqui apresentados.

Notas:

[1]  Parte da equipe participou de uma oficina sobre os critérios de confiabilidade da plataforma com um integrante do Wiki Movimento Brasil e após avialiamos cada mídia elencada a partir dos critérios presentes no site: https://pt.wikipedia.org/wiki/Confiabilidade_da_Wikip%C3%A9dia

[2]  JEMIELNIAK, Dariusz. Common Knowledge? An ethnography of Wikipedia. Stanford: Stanford University Press, 2014

MAYER-SCHÖNBERGER, Viktor. Geographies of the world’s knowledge: An approach. In: FLICK, Corinne Michaela. Who Owns the World’s Knowledge? Munich: Convoco, 2012. p. 112-124.

[3]  TERRES, Pedro Toniazzo; PIANTÁ, Lucas Tubino. Wikipédia: públicos globais, histórias digitais. Esboços: histórias em contextos globais, v. 27, n. 45, p. 264-285, 2020.

[4]  Este arquivo pode ser encontrado em https://dumps.wikimedia.org.

compartilhe