Novos materiais
O paradigma que nasce da ciência intensiva de dados

Ilum – Escola de Ciência
Centro Nacional de Pesquisa em Energia e Materiais (SP)
Ilum – Escola de Ciência
Centro Nacional de Pesquisa em Energia e Materiais (SP)

Grandes transformações na civilização estão intimamente ligadas ao desenvolvimento de materiais. Basta nos lembrarmos, por exemplo, do bronze, do ferro, do plástico e do silício. Cada um deles, a seu modo e em sua época, trouxe bem-estar para as populações e riqueza para as nações. Hoje, o desenvolvimento de novos materiais vive um novo paradigma, baseado na integração da ciência de dados a diversos campos de pesquisa. Qualquer país que queira aproveitar as vantagens econômicas e sociais que advêm dos novos materiais deve estar atento a essa nova forma de fazer ciência.

CRÉDITO: ILUSTRAÇÃO A PARTIR DE ADOBE STOCK

Em 2011, o então presidente norte-americano Barack Obama lançou o MGI (sigla, em inglês, para Iniciativa do Genoma dos Materiais). Desde então, o principal objetivo desse programa tem sido a implantação de metodologias computacionais, visando à descoberta de novos materiais e suas propriedades. 

Essa grande colaboração levou a ampla e estreita cooperação entre cientistas de duas áreas: materiais e computação. Inspirados pelo programa norte-americano e motivados pela importância do tema, outros países criaram iniciativas semelhantes. 

O MGI está baseado em redes colaborativas que apoiam o compartilhamento de dados e das melhores práticas, para, assim, promover um ambiente aberto para o design e desenvolvimento de materiais. A lista de interesses do programa é longa e diversificada. Exemplos: energia limpa, bem-estar humano, materiais quânticos, segurança nacional e nova geração de força de trabalho. 

Materiais estão intimamente ligados ao desenvolvimento econômico. Basta nos lembrarmos de alguns dos protagonistas de grandes transformações na civilização: pedra lascada, bronze, ferro, plástico e silício. Cada um deles, a seu modo, também causou impactos sociais profundos.

A história mostra que a busca por novos materiais nunca cessou. Neste momento, ela está sendo feita com base na ciência intensiva de dados. Os resultados dessas pesquisas devem alimentar a economia mundial pelas próximas décadas, pois deles surgirão produtos que trarão não só bem-estar para as populações, mas também riqueza para as nações que souberem reconhecer a urgência dessa nova forma de fazer ciência.

Podemos dizer que um novo paradigma está surgindo, alimentado pela integração das tecnologias de ciência de dados com a física, a química, a biologia, a medicina e as engenharias (figura 1). Qualquer nação que busque relevância tecnológica em um futuro próximo terá que, obrigatoriamente, estar qualificada em ciência de dados.

Figura 1. Os quatro paradigmas da forma de se fazer ciência

CRÉDITO: CEDIDO PELOS AUTORES

E a razão é simples: esta última é a base para a inteligência artificial, o aprendizado de máquina e o alto rendimento (high throughput), áreas cuja relevância extrapola os limites da ciência, por suas implicações para a geopolítica e a segurança nacional.

Com a grande demanda atual por novos materiais – em especial, em áreas como computação quântica, spintrônica, biotecnologia, energia e farmacêutica –, é natural lançarmos a pergunta: como a ciência de dados pode tornar essas descobertas mais eficientes? 

Hoje, sabemos que os grandes avanços obtidos nas últimas décadas no projeto e na construção de computadores e celulares – para ficarmos em só dois exemplos – ocorreram por causa da incorporação nesses equipamentos de novos materiais – e também de novas funções que estes últimos passaram a desempenhar.

Enfim, poderíamos resumir o que foi dito até agora com uma lição que a história nos tem ensinado por séculos: a exploração de novos nichos tecnológicos – e o aproveitamento das vantagens econômicas, sociais e políticas que advêm deles – está intimamente ligada à descoberta de novos materiais.

O papel da ciência de dados

Como os materiais se diferenciam fisicamente? Toda a matéria é composta por átomos. Combinando diferentes átomos – a lista completa deles está na Tabela Periódica –, é possível gerar diferentes compostos. 

Mas não basta simplesmente combinar os átomos. A organização espacial deles também é importante. Exemplo emblemático: grafite e diamante são formados por um único tipo de átomo, o carbono. Mas são macroscopicamente bem distintos entre si. Mais: têm propriedades físicas e químicas muito diferentes.

A dimensão do composto tem papel igualmente preponderante. O grafeno é também formado só por carbono, mas, diferentemente de seus ‘primos’, tem apenas uma camada atômica, ou seja, é um material bidimensional. E isso faz toda a diferença em suas propriedades (térmicas e elétricas, por exemplo), que seguem sendo estudadas hoje.

Outro aspecto importante: a presença, no composto, de ‘impurezas’ em sua composição ou ‘defeitos’ em sua estrutura. Exemplo clássico é o diamante. A cor dessa pedra é alterada se houver nela átomos de nitrogênio ou se, em algum ponto, faltarem átomos de carbono.

Uma vez conhecida a composição e disposição estrutural dos átomos de um novo composto, resta descobrir suas propriedades (elétricas, elásticas, ópticas, magnéticas etc.). Isso é feito com a ajuda da chamada mecânica quântica, teoria que lida com os fenômenos do diminuto universo atômico e subatômico. 

Mas explorar essas propriedades, por meio de cálculos, em cada um dos novos materiais que surgem incessantemente nos laboratórios de pesquisa do mundo, é uma tarefa não só complexa, mas também demorada. 

Na verdade, essa empreitada é quase impossível. Se levarmos em conta apenas compostos formados pelos 90 primeiros elementos da Tabela Periódica, o número de combinações chegará à casa de 8 mil. Para compostos com até três átomos diferentes, são cerca de 740 mil combinações; para até quatro átomos, algo como 66 bilhões delas. 

E isso sem levar em conta a organização dos átomos ou a presença de ‘defeitos’ e ‘impurezas’. Se pensarmos em compostos em que há grande quantidade de átomos diferentes e muitas impurezas, como no vidro, esse número supera rapidamente um trilhão de combinações.

Já deu para notar que essa abordagem ‘tradicional’ é impraticável. Precisamos de uma nova. E ela vem com a ajuda da ciência de dados, que permite acelerar a descoberta de novos materiais – sem explicitamente examiná-los um a um –, com base em ferramentas como redes neurais, regressão linear, árvores de decisão etc. (figura 2).

Figura 2. Abordagem ‘tradicional’ e aquela baseada na ciência de dados (no caso, aprendizado de máquina), para a pesquisa e descoberta de novos materiais

CRÉDITO: CEDIDO PELOS AUTORES

A ciência de dados permite ‘cortar caminhos’, estabelecendo conexões em diferentes etapas da exploração dos novos compostos. Por exemplo, podemos: i) relacionar a composição de um material com sua transparência óptica, sem precisar fazer experimentos; ii) predizer as possíveis estruturas estáveis de dada composição; iii) resolver o chamado ‘problema-inverso’ – isto é, dada uma propriedade de interesse, qual composto posso usar?

Do ponto de vista da máquina (computador), um material é descrito por um conjunto de valores, cada um deles (descritores) representando, por exemplo, os tipos de átomos, a quantidade de átomos e as posições atômicas. Podemos também associar a esses descritores alguma ‘consequência’ (propriedade elétrica, térmica, estabilidade estrutural etc.). 

Diferentes abordagens de aprendizado de máquinas podem ser usadas para fazer essa conexão. Mas há aspecto importante em comum a todos os métodos: a máquina só aprende via exemplos (dados), ou seja, é preciso ‘mostrá-los’ a ela, conectando os descritores com as consequências, para que ela tente extrair disso um aprendizado do conjunto. 

Voltemos à questão dos dados. Por enquanto, imaginemos o seguinte: já conhecemos um grande conjunto de materiais e suas propriedades. E, a partir disso, queremos encontrar novos. 

Para isso, depois de alimentarmos o computador com certo conjunto de dados, podemos usar algoritmos de aprendizado de máquina não supervisionados ou supervisionados (figura 3). 

No primeiro caso, esperamos a máquina aprender algo sobre os dados, sem que se queira encontrar uma propriedade específica. Em geral, pede-se ao modelo que agrupe, em conjuntos, os dados com características em comum (não definidas). Note que, ao analisar o critério usado pela máquina para fazer esse agrupamento, é possível aprender sobre a relação entre características dos diferentes materiais. 

No caso supervisionado – como o termo sugere –, nós ‘supervisionamos’ o aprendizado da máquina, dizendo a ela o que é ‘entrada’ (descritores) e ‘saída’ (consequência, ou seja, propriedade).

O papel da máquina, com ajuda do algoritmo, é aprender a relacionar as ‘entradas’ com as ‘saídas’, por meio de ferramentas que, em ciência dos dados, denominamos ‘classificação’ ou ‘regressão’. 

Os algoritmos usados vão das alternativas mais simples e interpretativas (regras de classificação e regressão linear) até modelos complexos de redes neurais.

Para todos esses dois tipos de algoritmo (supervisionado ou não), há um fluxograma comum: i) coleta e estruturação dos dados, em que ocorre também a geração dos dados necessários e a filtragem (screening) daqueles relevantes ao problema; ii) treinamento de algoritmos e teste, nos quais ocorre o aprendizado de máquina, seu treino e a avaliação de sua eficiência; iii) aplicações, etapa na qual se usa o algoritmo para predizer – e acelerar – a descoberta de novos compostos e suas propriedades.

Onde estão os dados?

Como dissemos, a máquina aprende via exemplos. Portanto, a existência de boa quantidade de dados é essencial. Mais: eles devem ser confiáveis. 

Então, surge a questão: onde encontrá-los?

A MGI deu um pontapé inicial para que se intensificasse a discussão sobre geração e acesso a dados na área de materiais. Mas, antes dessa iniciativa, isso já ocorria. Por exemplo, a ICSD (sigla, em inglês, para Banco de Dados sobre Estruturas Cristalinas Inorgânicas), fundada em 1978, contém atualmente mais de 210 mil materiais classificados, com dados que vão da estrutura à caracterização teórica e experimental. 

Nos últimos anos, tem havido aumento significativo da quantidade de bancos de dados de materiais disponíveis. Exemplos: o consórcio AFLOWLIB, o Materials Project, o OQMD e o NOMAD – veja links para algumas dessas iniciativas na seção ‘Leia+’.

Além da quantidade, há outro aspecto importante sobre os dados: como eles são disponibilizados. Em 2016, um consórcio de cientistas cunhou os chamados ‘The FAIR Guiding Principles’, os quais destacam a importância e os critérios para o compartilhamento de dados de forma geral. 

Esses critérios estão implícitos nas letras da sigla FAIR. Em uma tradução aproximada, seria F, de fáceis ‘de encontrar’; A, de acessíveis; I, de interoperáveis; R, de reutilizáveis.

E o Brasil?

Como vimos, a mecânica quântica – desenvolvida principalmente nas primeiras duas décadas do século passado – permitiu entender as propriedades microscópicas dos materiais. Mas os cálculos se complicam (muito) quando essa teoria é aplicada a compostos com muitos átomos.

Em 1964, o físico francês Pierre Hohenberg (1934-2017) e o austríaco Walter Kohn (1923-2016) publicaram artigo que se tornou um tipo de padrão para os cálculos de propriedades dos materiais. O método lá descrito ficou conhecido como DFT (sigla, em inglês, para teoria do funcional da densidade). 

A precisão e eficiência do DFT para entender, predizer e descobrir novos materiais fizeram desse método um novo paradigma na ciência dos materiais. E, com o crescimento da capacidade computacional, esse método se tornou também o grande gerador de dados (confiáveis) para materiais. 

E, claro, precisamos alimentar as máquinas com dados confiáveis, para que elas ‘aprendam’ de forma correta. Cerca de 15 mil artigos usando DFT são publicados anualmente – a comunidade científica brasileira contribui com pouco mais de 2% desse total. 

No Brasil, passo importante para estabelecer uma comunidade nessa área foi a criação, pela Sociedade Brasileira de Física, da Escola Brasileira de Estrutura Eletrônica, cuja primeira edição ocorreu em Brasília, em 1987. Desde então, a comunidade brasileira tem contribuído para o desenvolvimento de algoritmos e técnicas para calcular diferentes propriedades de novos materiais.

Vale repetir o que foi dito: investir em pesquisa e desenvolvimento no campo da ciência intensiva de dados é crucial para que um país seja – e permaneça – competitivo. Afinal, a história da ciência tem um sem-número de exemplos que mostram que a descoberta de novos materiais, bem como os produtos que os empregam, têm tido tremendo impacto em diversos setores (indústria, saúde, finanças, manufatura, clima etc.).

Além de investimentos, o Brasil precisa de recursos humanos bem qualificados em ciência dos materiais e ciência de dados, para enfrentar o novo paradigma que surge da fusão dessas duas áreas. Mais: i) o país necessita melhorar urgentemente sua infraestrutura de laboratórios e de computadores robustos; ii) os cursos de graduação, em todas as áreas do conhecimento, deveriam implementar disciplinas de inteligência artificial (IA). 

A Academia Brasileira de Ciências lançou, em março do ano passado, um caderno em que contempla a inovação tecnológica e o desenvolvimento sustentável na era da ciência de dados, com ênfase em inteligência artificial. Recentemente, foi aprovado um Instituto Nacional em Ciência e Tecnologia para a área de materiais voltados para a informática, cujo objetivo é aplicar a ciência de dados e suas ferramentas à pesquisa em novos materiais. 

Para finalizar, vale citar frase do cientista de materiais Bryce Meredig, a qual reflete a importância do que tratamos neste artigo: “O aprendizado de máquina não vai substituir os cientistas, mas os cientistas que usam aprendizado de máquina vão substituir os que não o usam.”

SCHLEDER, G. R., FAZZIO, A. Machine learning na física, química e ciência de materiais: descoberta e design de materiais. Rev. Bras. Ensino Fís. v. 43, supl. 1, 2021.

SCHLEDER, G. R. et al. From DFT to machine learning: recent approaches to materials science – a review. J. Phys. Mater. V. 2, p. 032001, 2019.

ABC. Inovação, empreendedorismo, tecnologia e desenvolvimento: estruturando bases para era da inteligência artificial e da ciência intensiva de dados, 2022. Disponível em: https://tinyurl.com/2p825rjd 

Na internet:

AFLOWlib: http://aflowlib.org/ 

Materials Project: https://next-gen.materialsproject.org/

Seu Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Outros conteúdos desta edição

725_480 att-83339
725_480 att-83596
725_480 att-83492
725_480 att-83568
725_480 att-83506
725_480 att-83382
725_480 att-83661
725_480 att-83456
725_480 att-83394
725_480 att-83420
725_480 att-83402
725_480 att-83447
725_480 att-83519
725_480 att-83605
725_480 att-83581

Outros conteúdos nesta categoria

725_480 att-81551
725_480 att-79624
725_480 att-79058
725_480 att-79037
725_480 att-79219
725_480 att-87831
725_480 att-87559
725_480 att-87613
725_480 att-87589
725_480 att-87306
725_480 att-87325
725_480 att-87110
725_480 att-87386
725_480 att-86776
725_480 att-86725