Como estudar e fortalecer as línguas indígenas?

Departamento de Linguística
Instituto de Estudos da Linguagem
Universidade Estadual de Campinas (SP)

O Brasil tem cerca de 200 línguas indígenas. Mas, hoje, grande parte delas tem pouquíssimos falantes. Pior: a maioria deles são idosos. Ou seja, essa cultura riquíssima está sob risco de extinção. Então, como traduzi-las e estudá-las? Como transmiti-las a novas gerações? Como armazenar conhecimento sobre elas para pesquisas futuras? Uma plataforma digital, empregando técnicas computacionais únicas e reunindo linguistas e colaboradores, está enfrentando esse problema. Seu conteúdo é aberto e está disponível on-line.

CRÉDITO: ADOBE STOCK

As línguas nativas do Brasil estão sofrendo enorme processo de enfraquecimento linguístico. Atualmente, grande parte das crianças indígenas no país não fala mais a língua de seus pais. E isso é indício de cenário mais grave: um processo que pode levar à extinção dessas línguas.

Segundo o censo mais recente do Instituto Brasileiro de Geografia e Estatística, o Brasil tem uma população indígena de 1,7 milhão de pessoas (cerca de 0,83% da população brasileira), com um total de 295 línguas nativas autodeclaradas nas comunidades, agrupadas em 40 famílias linguísticas diferentes. A organização não governamental Instituto Socioambiental (ISA) aponta 160 línguas, mas com base em publicações científicas. De todo modo, são muitas línguas, sem dúvida. Mas há um problema: em muitos casos, os falantes delas são só os idosos.

A perda de falantes nativos dessas línguas foi acelerada enormemente pela pandemia de covid-19. Segundo o ISA, a pandemia afetou 162 povos originários no Brasil, com alta letalidade entre idosos.

Portanto, já não é mais possível coletar grande quantidade de dados de muitas línguas brasileiras, porque, em várias delas, há pouquíssimos falantes. Esse cenário nos leva às seguintes questões: seria possível preservar, estudar e traduzir automaticamente línguas em perigo de extinção, sem depender de grandes quantidades de dados? Daria para gerar materiais para o ensino e a revitalização dessas línguas? Poderíamos armazenar conhecimento sobre essas línguas?

Nós, linguistas, acreditamos que há resposta única para essas três perguntas: sim.

Há várias propostas de documentação das línguas faladas no Brasil – em breve, a Revista da Associação Brasileira de Linguística deve publicar dossiê sobre o tema. Mas, aqui, vamos nos deter a uma dessas iniciativas: o Dacilat, sigla para denominar o projeto temático ‘Corpora anotados digitais de línguas indígenas brasileiras com traduções automáticas’.

Financiado pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), o Dacilat reúne uma equipe de pesquisadores da Universidade Estadual de Campinas (Unicamp) que, para esse projeto, desenvolveu a Plataforma Tycho Brahe, para documentar e estudar línguas ao redor do mundo.

O nome dessa plataforma digital é homenagem a Tycho Brahe (1546-1601), conhecido por suas anotações precisas e detalhadas sobre constelações, no século 16. Consideramos nossa tarefa similar ao trabalho desse astrônomo dinamarquês: fazemos anotações igualmente precisas e detalhadas sobre as línguas do mundo.

Portanto, já não é mais possível coletar grande quantidade de dados de muitas línguas brasileiras, porque, em várias delas, há pouquíssimos falantes

Do clássico ao nativo

Iniciativa clássica na documentação linguística é a elaboração de corpora – palavra que significa ‘corpos’, em latim. São bases de dados textuais processados e anotados por computadores. O primeiro corpus (corpo) da Plataforma Tycho Brahe foi sobre o português clássico, elaborado pela pesquisadora Charlotte Galves, da Unicamp.

O kadiwéu é a primeira língua indígena contemplada nessa plataforma. A iniciativa foi da autora deste artigo, auxiliada por falantes nativos da língua – principalmente, pela doutoranda Vanda Pires, indígena Kadiwéu, falante nativa dessa língua.

A língua kadiwéu, falada no Mato Grosso do Sul, pertence à família linguística Guaikuru e conta, hoje, com menos de 400 falantes. A grande maioria do povo Kadiwéu (menos de 2 mil pessoas) fala o português na maior parte do tempo ou só o português.

Mais linguistas estão se juntando à nossa equipe. Com isso, o projeto, atualmente, conta com outras línguas indígenas: nheengatu, tukano e sateré-mawe. O mundo tem cerca de 7 mil línguas, sendo que quase 300 delas são faladas no Brasil.

Mas, como dissemos, não é possível elaborar grandes corpora de dados (big data) em línguas brasileiras. Para superar esse obstáculo, a Plataforma Tycho Brahe foi idealizada com base em uma concepção de construção de corpus que difere das abordagens computacionais predominantes, as quais dependem de grandes volumes de dados.

Tendência atual, o big data é amplamente usado por empresas: com essa ferramenta, é possível, de modo veloz, coletar, armazenar e processar enormes quantidades de dados (estruturados ou não), para gerar insights poderosos para, por exemplo, a tradução automática.

Isso torna o emprego do big data bastante viável para o estudo de línguas como o português e o inglês, porque ambas têm dados abundantes na internet. Mas, infelizmente, esse não é o caso das línguas nativas brasileiras.

Há um mito de que as línguas indígenas são primitivas, não estruturadas. Isso é falso. Todas as línguas contam com estrutura gramatical rebuscada

CONTEÚDO EXCLUSIVO PARA ASSINANTES

Para acessar este ou outros conteúdos exclusivos por favor faça Login ou Assine a Ciência Hoje.

Outros conteúdos desta edição

725_480 att-100145
725_480 att-99962
725_480 att-99966
725_480 att-100128
725_480 att-99983
725_480 att-99680
725_480 att-99928
725_480 att-99993
725_480 att-99862
725_480 att-99898
725_480 att-99917
725_480 att-100008
725_480 att-99705
725_480 att-99855
725_480 att-100023

Outros conteúdos nesta categoria

725_480 att-100145
725_480 att-100023
725_480 att-100078
725_480 att-81551
725_480 att-79624
725_480 att-79058
725_480 att-79037
725_480 att-79219
725_480 att-98665
725_480 att-98719
725_480 att-98771
725_480 att-98705
725_480 att-97544
725_480 att-97531
725_480 att-97676