As línguas nativas do Brasil estão sofrendo enorme processo de enfraquecimento linguístico. Atualmente, grande parte das crianças indígenas no país não fala mais a língua de seus pais. E isso é indício de cenário mais grave: um processo que pode levar à extinção dessas línguas.
Segundo o censo mais recente do Instituto Brasileiro de Geografia e Estatística, o Brasil tem uma população indígena de 1,7 milhão de pessoas (cerca de 0,83% da população brasileira), com um total de 295 línguas nativas autodeclaradas nas comunidades, agrupadas em 40 famílias linguísticas diferentes. A organização não governamental Instituto Socioambiental (ISA) aponta 160 línguas, mas com base em publicações científicas. De todo modo, são muitas línguas, sem dúvida. Mas há um problema: em muitos casos, os falantes delas são só os idosos.
A perda de falantes nativos dessas línguas foi acelerada enormemente pela pandemia de covid-19. Segundo o ISA, a pandemia afetou 162 povos originários no Brasil, com alta letalidade entre idosos.
Portanto, já não é mais possível coletar grande quantidade de dados de muitas línguas brasileiras, porque, em várias delas, há pouquíssimos falantes. Esse cenário nos leva às seguintes questões: seria possível preservar, estudar e traduzir automaticamente línguas em perigo de extinção, sem depender de grandes quantidades de dados? Daria para gerar materiais para o ensino e a revitalização dessas línguas? Poderíamos armazenar conhecimento sobre essas línguas?
Nós, linguistas, acreditamos que há resposta única para essas três perguntas: sim.
Há várias propostas de documentação das línguas faladas no Brasil – em breve, a Revista da Associação Brasileira de Linguística deve publicar dossiê sobre o tema. Mas, aqui, vamos nos deter a uma dessas iniciativas: o Dacilat, sigla para denominar o projeto temático ‘Corpora anotados digitais de línguas indígenas brasileiras com traduções automáticas’.
Financiado pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), o Dacilat reúne uma equipe de pesquisadores da Universidade Estadual de Campinas (Unicamp) que, para esse projeto, desenvolveu a Plataforma Tycho Brahe, para documentar e estudar línguas ao redor do mundo.
O nome dessa plataforma digital é homenagem a Tycho Brahe (1546-1601), conhecido por suas anotações precisas e detalhadas sobre constelações, no século 16. Consideramos nossa tarefa similar ao trabalho desse astrônomo dinamarquês: fazemos anotações igualmente precisas e detalhadas sobre as línguas do mundo.