Vários projetos científicos atuais envolvem esforços de coleta e análise de dados em grande escala, que atingem às vezes volume medido em gigabytes (volume de dados que cabe em um DVD) ou terabytes (mais de 200 DVDs cheios).

Um projeto desse tipo é a Pesquisa Sloan Digital do Céu (SDSS, na sigla em inglês), iniciado em 2000 com o objetivo de mapear objetos astronômicos como estrelas e galáxias em grande detalhe.

Esse projeto usa um telescópio dedicado apenas a ele, além de computadores e programas de alto desempenho para processar as imagens, incluí-las em bancos de dados e disponibilizar tais dados em diversas modalidades, tanto para astrônomos e astrofísicos quanto para o público em geral.

Entre os dados coletados pelo SDSS está um catálogo com informações sobre mais de 930 mil galáxias (incluindo imagens das mesmas).

Em forma bruta, essa enorme quantidade de dados tem valor científico, mas este só será revelado quando eles forem analisados

O que pode ser feito com todos esses dados? Em forma bruta, essa enorme quantidade de dados tem valor científico, mas este só será revelado quando eles forem analisados, permitindo obter informações relacionadas ao estudo que motivou a coleta.

No caso do SDSS, algumas informações sobre as galáxias podem ser determinadas ou calculadas automaticamente, por programas computacionais mais simples, diretamente a partir das imagens, mas outras exigiriam maior esforço computacional ou humano para sua obtenção.

Um exemplo está no grande interesse dos astrônomos pela forma das galáxias, que podem dar indícios de como se formaram, e por outras características que não podem ser extraídas automaticamente de forma confiável – resultados obtidos por observadores humanos são considerados muito superiores.

Chris Lintott, astrônomo da Universidade de Oxford (Inglaterra), estimou que um estudante de pós-graduação precisaria de três a cinco anos de trabalho incessante, sem dormir e dedicando-se integralmente a essa tarefa, para indicar manualmente as formas das galáxias contidas na base de dados do projeto.

Já Alex Szalay, da Universidade Johns Hopkins (Estados Unidos), observou que provavelmente não existem astrônomos em número suficiente, no mundo inteiro, para analisar todos os dados do SDSS.

Como obter, então, as formas de quase um milhão de galáxias? Os dados brutos estão disponíveis, mas métodos automáticos não são confiáveis o suficiente para obter as informações desejadas e não é possível exigir de especialistas que dediquem o tempo necessário para o processamento manual desses dados.

Sem restrições

Uma solução aparentemente ingênua foi usar voluntários não-treinados para ajudar na classificação das formas dessas galáxias. Para isso, foi criado um projeto chamado Galaxy Zoo, que usa os dados do SDSS e os apresenta em uma página na internet, onde usuários podem opinar sobre os formatos das galáxias presentes nas imagens.

Uma solução aparentemente ingênua foi usar voluntários não-treinados para ajudar na classificação das formas dessas galáxias

Não existem restrições aos possíveis colaboradores do projeto: os usuários interessados não precisam ter conhecimentos em astronomia, mas devem se cadastrar na página e ler um breve e simples conjunto de instruções antes de começar a participar.

A ideia parece, à primeira vista, destinada ao fracasso. Como esperar que voluntários não-treinados para o trabalho científico executem uma tarefa específica e não trivial, após ler um simples manual de instruções? Como confiar nos resultados obtidos com a colaboração dessas pessoas? Por que alguém seria voluntário para colaborar em uma tarefa desse tipo?

Os resultados do Galaxy Zoo foram surpreendentes. A página foi aberta ao público em julho de 2007 e, em três semanas, 80 mil usuários se cadastraram e realizaram mais de 10 milhões de tarefas de classificação de imagens de galáxias. 

Galaxy Zoo
Centenas de milhares de pessoas de todo o mundo participam de projetos de ciência cidadã pela internet, como o Galaxy Zoo (na imagem).

Ao final de um ano havia 150 mil usuários, que classificaram mais de 50 milhões de imagens: em média, cada galáxia foi classificada mais de 50 vezes. Ferramentas auxiliares, como blogues e um fórum de discussões, foram criados para que os voluntários pudessem fazer observações, sugerir objetos interessantes e rever suas colaborações.

 

Você leu apenas o início do artigo publicado na CH 281. Clique no ícone a seguir para baixar a versão integral. PDF aberto (gif)

Marinalva Dias Soares
Programa de Pós-Graduação em Computação Aplicada
Instituto Nacional de Pesquisas Espaciais

Rafael D. C. Santos
Laboratório Associado de Computação e Matemática Aplicada
Instituto Nacional de Pesquisas Espaciais

Outros conteúdos desta edição

614_256 att-21858
614_256 att-21856
614_256 att-21854
614_256 att-21850
614_256 att-21852
614_256 att-21848
614_256 att-21844
614_256 att-21842
614_256 att-21840

Outros conteúdos nesta categoria

614_256 att-22975
614_256 att-22985
614_256 att-22993
614_256 att-22995
614_256 att-22987
614_256 att-22991
614_256 att-22989
614_256 att-22999
614_256 att-22983
614_256 att-22997
614_256 att-22963
614_256 att-22937
614_256 att-22931
614_256 att-22965
614_256 att-23039