A ciência de dados permite ‘cortar caminhos’, estabelecendo conexões em diferentes etapas da exploração dos novos compostos. Por exemplo, podemos: i) relacionar a composição de um material com sua transparência óptica, sem precisar fazer experimentos; ii) predizer as possíveis estruturas estáveis de dada composição; iii) resolver o chamado ‘problema-inverso’ – isto é, dada uma propriedade de interesse, qual composto posso usar?
Do ponto de vista da máquina (computador), um material é descrito por um conjunto de valores, cada um deles (descritores) representando, por exemplo, os tipos de átomos, a quantidade de átomos e as posições atômicas. Podemos também associar a esses descritores alguma ‘consequência’ (propriedade elétrica, térmica, estabilidade estrutural etc.).
Diferentes abordagens de aprendizado de máquinas podem ser usadas para fazer essa conexão. Mas há aspecto importante em comum a todos os métodos: a máquina só aprende via exemplos (dados), ou seja, é preciso ‘mostrá-los’ a ela, conectando os descritores com as consequências, para que ela tente extrair disso um aprendizado do conjunto.
Voltemos à questão dos dados. Por enquanto, imaginemos o seguinte: já conhecemos um grande conjunto de materiais e suas propriedades. E, a partir disso, queremos encontrar novos.
Para isso, depois de alimentarmos o computador com certo conjunto de dados, podemos usar algoritmos de aprendizado de máquina não supervisionados ou supervisionados (figura 3).
No primeiro caso, esperamos a máquina aprender algo sobre os dados, sem que se queira encontrar uma propriedade específica. Em geral, pede-se ao modelo que agrupe, em conjuntos, os dados com características em comum (não definidas). Note que, ao analisar o critério usado pela máquina para fazer esse agrupamento, é possível aprender sobre a relação entre características dos diferentes materiais.
No caso supervisionado – como o termo sugere –, nós ‘supervisionamos’ o aprendizado da máquina, dizendo a ela o que é ‘entrada’ (descritores) e ‘saída’ (consequência, ou seja, propriedade).
O papel da máquina, com ajuda do algoritmo, é aprender a relacionar as ‘entradas’ com as ‘saídas’, por meio de ferramentas que, em ciência dos dados, denominamos ‘classificação’ ou ‘regressão’.
Os algoritmos usados vão das alternativas mais simples e interpretativas (regras de classificação e regressão linear) até modelos complexos de redes neurais.
Para todos esses dois tipos de algoritmo (supervisionado ou não), há um fluxograma comum: i) coleta e estruturação dos dados, em que ocorre também a geração dos dados necessários e a filtragem (screening) daqueles relevantes ao problema; ii) treinamento de algoritmos e teste, nos quais ocorre o aprendizado de máquina, seu treino e a avaliação de sua eficiência; iii) aplicações, etapa na qual se usa o algoritmo para predizer – e acelerar – a descoberta de novos compostos e suas propriedades.