Vários projetos científicos atuais envolvem esforços de coleta e análise de dados em grande escala, que atingem às vezes volume medido em gigabytes (volume de dados que cabe em um DVD) ou terabytes (mais de 200 DVDs cheios).
Um projeto desse tipo é a Pesquisa Sloan Digital do Céu (SDSS, na sigla em inglês), iniciado em 2000 com o objetivo de mapear objetos astronômicos como estrelas e galáxias em grande detalhe.
Esse projeto usa um telescópio dedicado apenas a ele, além de computadores e programas de alto desempenho para processar as imagens, incluí-las em bancos de dados e disponibilizar tais dados em diversas modalidades, tanto para astrônomos e astrofísicos quanto para o público em geral.
Entre os dados coletados pelo SDSS está um catálogo com informações sobre mais de 930 mil galáxias (incluindo imagens das mesmas).
O que pode ser feito com todos esses dados? Em forma bruta, essa enorme quantidade de dados tem valor científico, mas este só será revelado quando eles forem analisados, permitindo obter informações relacionadas ao estudo que motivou a coleta.
No caso do SDSS, algumas informações sobre as galáxias podem ser determinadas ou calculadas automaticamente, por programas computacionais mais simples, diretamente a partir das imagens, mas outras exigiriam maior esforço computacional ou humano para sua obtenção.
Um exemplo está no grande interesse dos astrônomos pela forma das galáxias, que podem dar indícios de como se formaram, e por outras características que não podem ser extraídas automaticamente de forma confiável – resultados obtidos por observadores humanos são considerados muito superiores.
Chris Lintott, astrônomo da Universidade de Oxford (Inglaterra), estimou que um estudante de pós-graduação precisaria de três a cinco anos de trabalho incessante, sem dormir e dedicando-se integralmente a essa tarefa, para indicar manualmente as formas das galáxias contidas na base de dados do projeto.
Já Alex Szalay, da Universidade Johns Hopkins (Estados Unidos), observou que provavelmente não existem astrônomos em número suficiente, no mundo inteiro, para analisar todos os dados do SDSS.
Como obter, então, as formas de quase um milhão de galáxias? Os dados brutos estão disponíveis, mas métodos automáticos não são confiáveis o suficiente para obter as informações desejadas e não é possível exigir de especialistas que dediquem o tempo necessário para o processamento manual desses dados.
Sem restrições
Uma solução aparentemente ingênua foi usar voluntários não-treinados para ajudar na classificação das formas dessas galáxias. Para isso, foi criado um projeto chamado Galaxy Zoo, que usa os dados do SDSS e os apresenta em uma página na internet, onde usuários podem opinar sobre os formatos das galáxias presentes nas imagens.
Não existem restrições aos possíveis colaboradores do projeto: os usuários interessados não precisam ter conhecimentos em astronomia, mas devem se cadastrar na página e ler um breve e simples conjunto de instruções antes de começar a participar.
A ideia parece, à primeira vista, destinada ao fracasso. Como esperar que voluntários não-treinados para o trabalho científico executem uma tarefa específica e não trivial, após ler um simples manual de instruções? Como confiar nos resultados obtidos com a colaboração dessas pessoas? Por que alguém seria voluntário para colaborar em uma tarefa desse tipo?
Os resultados do Galaxy Zoo foram surpreendentes. A página foi aberta ao público em julho de 2007 e, em três semanas, 80 mil usuários se cadastraram e realizaram mais de 10 milhões de tarefas de classificação de imagens de galáxias.
Ao final de um ano havia 150 mil usuários, que classificaram mais de 50 milhões de imagens: em média, cada galáxia foi classificada mais de 50 vezes. Ferramentas auxiliares, como blogues e um fórum de discussões, foram criados para que os voluntários pudessem fazer observações, sugerir objetos interessantes e rever suas colaborações.
Marinalva Dias Soares
Programa de Pós-Graduação em Computação Aplicada
Instituto Nacional de Pesquisas Espaciais
Rafael D. C. Santos
Laboratório Associado de Computação e Matemática Aplicada
Instituto Nacional de Pesquisas Espaciais