Desafios do Big Data

Acervo Revistas Ciência Hoje

Agosto 2013 [CH 306]

Desafios do Big Data

Big Data descreve um conjunto de problemas e suas soluções tecnológicas em computação aplicada com características que tornam seus dados difíceis de tratar. Há consenso de que três dessas características, as iniciadas pelos três ‘Vs’, são as principais: volume, velocidade e variedade. Apesar de Big Data ser uma expressão criada para ter impacto mercadológico, acabou definindo uma nova área de pesquisa.

Como o termo Big Data faz supor, um dos desafios é a enorme quantidade de dados, ou seja, seu volume. Os sistemas tradicionais atuais não estão preparados para tratar certas coleções de dados que já temos ou vamos obter nos próximos anos. A previsão é que passaremos da faixa de muitos gigabytes (bilhões de bytes) ou poucos terabytes (trilhões) para a faixa de petabytes (milhares de trilhões) ou até mesmo exabytes (milhões de trilhões).

Os sistemas tradicionais atuais não estão preparados para tratar certas coleções de dados que já temos ou vamos obter nos próximos anos

Para dar uma ideia, um disco rígido comum tem atualmente em torno de 1 terabyte. O LHC, o maior acelerador de partículas do mundo, no Centro Europeu de Pesquisas Nucleares (Cern), na Suíça, armazena 15 petabytes por ano de dados na forma original. É o equivalente a 15 mil discos rígidos cheios. Ao longo do tempo, os dados já somam 100 petabytes.

Velocidade significa que esses dados são enviados aos nossos sistemas com uma taxa de bytes por intervalo de tempo muito alta, tão grande que não temos como armazená-los todos. Assim, muitas vezes, somos obrigados a escolher dados para guardar e outros para descartar. Para armazenar aqueles 15 petabytes por ano, o Cern escolhe dados relevantes entre 15 petabytes gerados por segundo de operação do LHC.

Como saber o que guardar e guardar cada vez mais rápido é o desafio.

: O Grande Colisor de Hádrons, mais conhecido por LHC (sua sigla em inglês), gera 15 petabytes de informação por segundo, mas só são guardados 15 petabytes por ano. Saber o que guardar e guardar cada vez mais rápido também é fundamental na área de Big Data. (foto: Cern)

Mais três ‘Vs’

Variedade significa que os dados aparecem em formas diferentes. Nossos sistemas tradicionais são otimizados para processar dados que podem ser facilmente descritos na forma de tabelas, como uma planilha eletrônica, onde cada coluna tem tamanho constante ou previsível, mesmo que a quantidade de linhas seja muito grande. Entretanto, muitos dos novos tipos de dados têm formatos mais livres (textos, imagens etc.) ou com estruturas específicas (redes, por exemplo).

A partir desses três ‘Vs’, diversos autores propõem ainda outros conceitos, como veracidade, variabilidade ou valor. São outras preocupações importantes, como garantir que o dado seja verdadeiro e ainda válido no tempo.

Outra maneira de entender Big Data está na forma como os dados acabam sendo usados – muitas vezes, não planejada desde sua criação. A prática de guardar informação – qualquer que seja – permite que, mais tarde, exista uma disponibilidade que pode ser aproveitada em uma oportunidade não identificada previamente. No jargão da área, modelamos ou remodelamos os dados depois de obtê-los.

Com a diminuição do custo de armazenamento de dados causada pela redução do preço dos discos rígidos e das fitas magnéticos, guarda-se tudo que é possível e, mais tarde, descobre-se como usar

Basicamente, com a diminuição do custo de armazenamento de dados causada pela redução do preço dos discos rígidos e das fitas magnéticos, guarda-se tudo que é possível e, mais tarde, descobre-se como usar. Vale lembrar aqui que o preço de armazenar 1 megabyte em mídia magnética caiu de US$ 30 (cerca de R$ 60), em 1980, para menos de US$ 0,0001 (cerca de R$ 0,00005) neste ano.

Muitos desses dados estão ou podem ser relacionados, mesmo que criados de forma independente. Por exemplo, mensagens que são enviadas por redes sociais já foram cruzadas com os movimentos das bolsas de valores e com a evolução geográfica da gripe.

Essas características geraram novos desafios tecnológicos na computação e exigem novos tipos de sistemas, seja de equipamentos, seja de programas.

Você leu apenas uma parte do artigo publicado na CH 306. Clique no ícone a seguir para baixar a versão integral.

Geraldo Xexéo
Departamento de Ciência da Computação/ Instituto de Matemática
Programa de Engenharia de Sistemas e Computação/ Coppe
Universidade Federal do Rio de Janeiro

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Desafios do Big Data

Mais três ‘Vs’

Neurociência, libélula e literatura

Dá-lhe cachaça

Língua: modos de usar

Outros conteúdos desta edição

Neurociência, libélula e literatura

Dá-lhe cachaça

Língua: modos de usar

Chagas de uma velha conhecida

O lado amargo dos adoçantes

A onda da autonomia

Ausência nas livrarias brasileiras

Comportamento viral

Outros conteúdos nesta categoria

Um matemático intuitivo

Tentativa de desmantelamento do Estado Social

Os pilares da ponte para o futuro

Herança de mãe

Vida de cão

Mistério evolutivo

Iluminismo e tolerância religiosa

O som e a saúde das florestas

Escolha consciente e realista

A biorremediação pode ser eficaz no rio Doce?

O pior e o melhor de nós

O encantador de ratos

O senhor dos organoides

Escher: para além do espaço e tempo

A luz como linguagem no cinema