Direto ao ponto

Todos os dias, o oceano de informações que nos cerca torna-se mais profundo: o espaço digital dobra a cada dois anos e deve atingir 44 trilhões de gigabytes até 2020 – uma quantidade de memória tão grande que é até difícil de imaginar. Se estivéssemos falando, por exemplo, de tablets, os aparelhos necessários para juntar os 44 trilhões de gigabytes, empilhados, poderiam dar mais de seis voltas e meia entre a Terra e a Lua, segundo o instituto de pesquisa IDC. Com tantos dados disponíveis on-line, como mergulhar neste vasto universo e extrair informações importantes? Pesquisadores brasileiros apostam nas técnicas de mineração de textos e estão ganhando visibilidade internacional no campo.

Em abril deste ano, um modelo de algoritmo desenvolvido no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (USP) foi premiado em um dos eventos mundiais mais relevantes da área. A conquista ocorreu durante a 16° Conferência Internacional de Processamento Inteligente de Textos e Linguística Computacional, realizada no Egito.

Como o nome indica, as técnicas de mineração de textos buscam processar grandes quantidades de dados em forma de texto para obter conhecimentos diversos. A área ganhou destaque com a popularização da expressão Big Data, que faz referência ao aumento não só do número de dados, mas também à variedade e velocidade de disponibilidade de informações na rede. “Devido à grande quantidade de dados textuais disponíveis, é humanamente impossível organizar, analisar e extrair o conhecimento embutido nos textos”, explica o cientista da computação Rafael Geraldeli Rossi, líder da pesquisa.

“Devido à grande quantidade de dados textuais disponíveis, é humanamente impossível organizar, analisar e extrair o conhecimento embutido nos textos”

O tipo de informação que se pode tirar de trabalhos desse tipo tem, segundo o especialista, utilidades dentro e fora da academia. Pode servir, por exemplo, para descobrir preferências de um determinado público ou para medir a reação popular aos acontecimentos. “Informações contidas nos dados textuais podem ser úteis em empresas e organizações para compreensão do comportamento humano, opinião pública, organização de informações, extração de conhecimento e auxílio na tomada de decisões”, afirma o pesquisador.

Mais informação em menos tempo

Os algoritmos são a base para os métodos de mineração de textos. “Um algoritmo é uma sequência bem definida de instruções para a resolução de um problema ou execução de uma tarefa”, detalha Rossi. Em resumo, são o passo a passo detalhado do que um programa deve fazer. Em geral, os algoritmos utilizados para a mineração de textos visam agrupar textos semelhantes, isto é, textos que pertençam a um determinado tópico ou assunto, ou classificar textos com base no conteúdo de alguns documentos e a classe desses documentos previamente fornecidos aos algoritmos. Neste último caso, o algoritmo pode aprender, por exemplo, se a presença de uma palavra indica opinião positiva ou negativa sobre determinado assunto, ou se um texto trata sobre esporte ou economia.

Mineração de dados
As publicações de usuários nas redes sociais podem ser uma fonte importante de informações sobre a percepção do público a respeito de determinado tema. Difícil é extrair esses dados. (foto: Tanja Cappell/Flickr CC BY-NC-ND 2.0)

Desenvolvido durante o doutorado de Rossi, o algoritmo brasileiro também trabalha desta forma, mas conta com um mecanismo adicional que, ao identificar os termos presentes, atribui a eles valores que serão úteis na classificação de outros textos. “Nosso modelo cria uma rede que liga conjuntos de palavras a conjuntos de documentos e consegue descobrir padrões”, afirma o engenheiro civil Alneu de Andrade Lopes, um dos co-autores da pesquisa.

Ao utilizar termos frequentes relacionados a algum assunto para classificar outros textos, o modelo ajuda a encontrar o caminho mais direto até o conteúdo desejado em um complexo e volumoso ambiente de dados. “É possível, por exemplo, determinar que o termo ‘futebol’ terá um alto valor de relevância para a classe ‘esporte’ e um baixo valor de relevância para a classe ‘economia’. Portanto, a presença do termo ‘futebol’ em um documento não rotulado aumentará as chances do mesmo ser rotulado como ‘esporte”, ilustra Lopes.

Impulso para novas gerações

Uma das aplicações do modelo está no desenvolvimento do projeto WebSensors, que utiliza a web como um grande sensor para identificar e classificar termos. “Podemos monitorar a percepção das pessoas sobre os políticos, por exemplo”, diz Rossi. “Para um determinado parlamentar, podemos gerar um sensor (modelo de classificação próprio para uma determinada situação que se deseja analisar) para comentários positivos, um sensor para comentários negativos e um sensor para comentários neutros, e, com isso, quantificar ao longo do tempo o índice de rejeição ou aceitação do candidato com base em postagens de redes sociais”. 

A novidade é atestada por Bruno Magalhães Nogueira, cientista da computação da Universidade Federal de Mato Grosso do Sul (UFMS). “Essa é uma abordagem inovadora, ainda não encontrada na literatura da área”, diz. “Com essa técnica, é possível ter um desempenho superior ao dos demais métodos e um consumo menor de recursos computacionais. Em outras palavras: consegue-se classificar documentos melhor e em menos tempo”, comemora.

“Essa pesquisa coloca em evidência a publicação científica nacional, que passa a servir como referência a outros autores”

Nogueira aponta ainda a importância da pesquisa no cenário brasileiro. “Essa pesquisa coloca em evidência a publicação científica nacional, que passa a servir como referência a outros autores”, diz o cientista da computação, que espera ver uma fileira de novos pesquisadores dedicados à área a partir de agora. “Certamente, resultados positivos em pesquisas como a apresentada abrem novas possibilidades e geram o engajamento de novos alunos de mestrado e doutorado produzindo pesquisa de ponta”, encerra.

Everton Lopes
Instituto Ciência Hoje/ RJ