A Terra sob os olhos da inteligência artificial profunda

“Uma imagem vale mais que mil palavras”, já dizia o filósofo chinês Confúcio (552 a.C-489 a.C.). E o que dizer de milhares, milhões de imagens geradas por monitoramento remoto a partir de satélites? São capazes de gerar informações sobre diversas áreas do nosso cotidiano. Mas quantos olhos seriam necessários para processar tantos dados? É aí que entra a inteligência artificial, com as técnicas de aprendizado de máquina e aprendizado profundo, revolucionando a forma como os computadores “veem” e “entendem” os registros da superfície terrestre.

FOTO: ADOBESTOCK

O emprego de imagens nos estudos da superfície da Terra é chamado de sensoriamento remoto. E, como já diz o nome, essa tecnologia permite obter informações sem a necessidade de contato físico direto do indivíduo com o objeto de análise. Para tal, são usados sensores a bordo de diferentes plataformas como balões, aeronaves e drones. Mas foi há 50 anos, mais exatamente em 1972, que sensores foram embarcados em satélites, alcançando abrangência global e com periodicidade constante. Esse avanço transformou por completo a visão humana do nosso planeta e impactou, de uma só vez, vários campos da ciência.

De fato, a aquisição periódica de dados na escala global, por meio de imagens, permite mapear os diversos elementos que compõem a superfície terrestre, os oceanos e a atmosfera e entender os processos de mudanças naturais e causadas pelos humanos.

Ao longo dos anos, a tecnologia de imageamento (captura de imagens) por satélite foi aprimorada com aumento da quantidade de dados coletados. Para se ter uma ideia, o primeiro satélite para imageamento (Landsat-1) tinha 3 metros de altura, 1,5 metro de diâmetro e pesava aproximadamente 950 quilos. E, atualmente, estão em operação microssatélites da Planet Labs com tamanho de 10 x 10 x 30 centímetros (menor que uma caixa de sapatos) e peso de 5 quilos. Essa tecnologia de miniaturização permitiu colocar em operação uma constelação com mais de 100 microssatélites, que adquirem diariamente imagens com alta resolução.

A tecnologia de miniaturização permitiu colocar em operação uma constelação com mais de 100 microssatélites, que adquirem diariamente imagens com alta resolução

As séries temporais compostas por sucessivas imagens do mesmo local formam um filme que demonstra as variações sazonais de vegetações, ciclos de crescimento das plantações, regimes de cheias e vazantes dos rios, variações climáticas, derretimento da calota polar, crescimento das cidades, desflorestamentos, entre outros. O acompanhamento desse grande número de sensores em operação aumenta o volume de dados que cresce exponencialmente ao longo do tempo, no que consiste num dos mais expressivos big data (banco de macrodados) construídos pela humanidade.

Mas, neste cenário surge uma questão: como processar esse gigantesco volume de imagens, visando a extrair informações com alta acurácia e de forma rápida para atender as diversas áreas de conhecimento.

A inteligência artificial com visão humana

Tornou-se, portanto, um desafio desenvolver métodos automatizados baseados em inteligência artificial para o processamento desse big data de imagens e obter a eficiência da visão humana. A visão humana possui notável proficiência na identificação de objetos e no estabelecimento de conexões semânticas, permitindo abstrair representações visuais considerando diversos fatores de mudanças como geometria, variação de fundo e oclusão. Além disso, a interpretação de uma cena não se limita a identificar os objetos presentes, mas também efetuar uma pormenorizada caracterização semântica das inter-relações dos objetos.

A interpretação de uma cena não se limita a identificar os objetos presentes, mas também efetuar uma pormenorizada caracterização semântica das inter-relações dos objetos

As primeiras classificações de imagens de sensoriamento remoto baseavam-se em métodos estatísticos que buscavam agregar píxeis (ou em inglês pixels) similares (menor unidade das imagens) considerando os valores presentes nas diversas bandas espectrais. No entanto, a classificação baseada por informações restritas ao píxel apresenta severas limitações para distinguir objetos complexos compostos por diferentes elementos.

Por exemplo, a identificação de uma motocicleta não é possível por agrupamento de pixeis similares, uma vez que essa é composta por diferentes elementos, tais como pneus, retrovisores, banco, entre outros, que variam de cor, textura e tamanho. A completa compreensão desses objetos ocorre em um nível semântico onde todas as partes do objeto estão conjuntamente integradas em sua identificação. Portanto, a agregação de diferentes partes que compõem um todo requer uma compreensão semântica