Há muito se questiona como os livros de uma sociedade refletem seus hábitos, comportamento, vocabulário e visões de mundo. Mas como acessar e conhecer a complexa variedade de dados que guarda a literatura? Pesquisadores norte-americanos acabam de encontrar um caminho.
A partir da digitalização de livros e com o auxílio de um sofisticado programa de busca, o grupo procura entender, por meio de uma análise linguística, como o mundo vem mudando ao longo dos anos.
A pesquisa, batizada de culturômica – em analogia à genômica –, inaugura o que seria uma nova abordagem do conhecimento, que atribui a esse material escaneado o papel de “registro fóssil” digital da cultura.
O banco de dados formado pela equipe se apoiou no conteúdo de 5,2 bilhões de livros escritos em língua inglesa durante o período de 1800 a 2000, cerca de 4% de todas as obras publicadas até hoje. Com base nessa volumosa amostra, buscou-se investigar a frequência de algumas palavras e frases de até cinco palavras.
O objetivo do estudo, publicado na revista Science, é entender, quantitativamente, como as tendências culturais têm evoluído. “A fama de uma pessoa pública é um exemplo. A sequência ‘Che Guevara’ só se tornou frequente nos livros depois das revoluções que ele fomentou na América do Sul”, exemplifica Jean-Baptiste Michel, da Universidade Harvard, nos Estados Unidos, e um dos autores do estudo.
- Che Guevara em 1960. O nome do revolucionário argentino só se tornou frequente nos livros depois das revoluções que ele fomentou na América do Sul. (foto: Alberto Korda / Museo Che Guevara)
“Assim, apenas olhando a frequência com que uma palavra é usada em função do tempo, é possível traçar o sentido de sua história”, acrescenta o pesquisador, em entrevista à CH On-line.
Michel defende que a trajetória das palavras revela, sim, as mudanças linguísticas e culturais a elas associadas, mas adverte que é preciso ter cuidado na hora de interpretar. “É complicado descobrir como Bill Clinton, por exemplo, foi percebido pelo público americano, se levarmos em conta apenas a frequência do seu nome”, alerta. “Ainda assim, podemos aprender muito sobre fama em geral, sobre como ela vem ou é afetada por um cargo, simplesmente olhando palavras como Bill Clinton.”
O lado prático
- Frequência de uso do nome Marc Chagall em alemão (em vermelho) e em inglês (em azul). Censurado pelo regime nazista, esse artista judeu desapareceu dos livros alemães na época do Terceiro Reich (entre 1933 e 1945), embora as referências a ele tenham aumentado cinco vezes nos livros em inglês digitalizados. (imagem: Science/ AAAS)
A fama não é o único aspecto que pode ser analisado por meio dessa ferramenta linguística. Os pesquisadores sugerem que outros processos, como a construção de uma memória coletiva ou a adoção de tecnologias ao longo da história, também podem vir a ser mais bem compreendidos a partir desse estudo.
A culturômica oferece ainda uma possibilidade, segundo Michel, de aplicação prática: a de detectar vítimas de censura nas sociedades contemporâneas a partir da supressão de seus nomes nos livros. “A repressão – de uma pessoa ou ideia – deixa impressões digitais quantitativas”, avaliam os autores no artigo.
No estudo, eles observaram, por exemplo, que o nome do artista judeu Marc Chagall foi mencionado apenas uma vez em toda a amostra relativa à literatura alemã entre 1936 e 1944. Nesse mesmo período, as referências a Chagall cresceram cinco vezes nos livros em inglês digitalizados.
Cultura acessível
Para a equipe – composta por pesquisadores de Harvard, Google, Enciclopédia Britânica e Dicionário Americano Heritage – a culturômica vem para complementar as atuais abordagens históricas da sociedade.
“Não pretendemos que tudo o que um linguista ou humanista queira aprender seja possível por meio dessa abordagem”, pondera Michel. “Mas ressaltamos que muitas coisas podem ser aprendidas pela simples contagem de palavras.”
De acordo com os pesquisadores, os livros até agora digitalizados somam 12% de todos as obras escritas já publicadas. São mais de 500 bilhões de palavras, a maioria em inglês, mas também em outras seis línguas: francês, espanhol, alemão, russo, hebraico e chinês.
Incorporar outros idiomas à base está entre as expectativas dos pesquisadores para o futuro. “Pretendemos trazer novas línguas e expandir nosso substrato cultural, ou seja, incluir também os jornais, manuscritos, trabalhos artísticos e mapas”, diz Michel.
O pesquisador anuncia que, em breve, todos os dados estarão acessíveis e a coleção completa de palavras, disponível na internet. E adianta: “Assim que finalizarmos o site, qualquer pessoa poderá se cadastrar, buscar palavras e conhecer, imediatamente, sua trajetória cultural”.
Carolina Drago
Ciência Hoje On-line