Os mundos possíveis da inteligência artificial

Associação Brasileira de Tecnologia Visual (VFXRio)
e Laboratório Visgraf, Instituto de Matemática Pura e Aplicada (IMPA)
Jornalista, especial para o ICH

Um dos principais nomes da IA generativa, o cientista da computação Hao Li vislumbra um futuro em que a tecnologia será capaz de criar humanos digitais, reconstituir o passado e construir metrópoles em tempo real. Mas ele reconhece dilemas éticos: ‘O importante é as pessoas saberem o que é possível’

CRÉDITO: FOTO CHRISTOPHER PIKE/MBZUAI

O cientista da computação Hao Li vive na fronteira entre ciência e arte. Seja na sua startup Pinscreen, com sede na Califórnia (Estados Unidos) e especializada em efeitos visuais, seja na Universidade de Inteligência Artificial Mohammed bin Zayed, em Abu Dhabi (Emirados Árabes), Li está na vanguarda do desenvolvimento de aplicações a partir da inteligência artificial (IA) generativa – um tipo de IA que é capaz de gerar conteúdos novos após ser ‘treinada’ com gigantescas bases de dados. Em seu centro de pesquisa, nos Emirados Árabes, avatares são criados a partir de apenas uma foto e seus movimentos podem ser controlados por humanos. Uma cidade inteira pode ser reconstruída em 3D utilizando só algumas imagens estáticas. Cientista que circula de Hollywood (Estados Unidos) a Davos (Suíça), onde mostrou para líderes mundiais no Fórum Econômico Mundial como já é possível criar deep fakes em tempo real, Li afirma que o futuro já chegou e é preciso que as pessoas estejam informadas sobre tudo que a tecnologia pode fazer. Responsável por recriar cenas de Paul Walker em Velozes e Furiosos 7, após a morte do ator em 2013 – quando a IA generativa estava bem longe de entrar em cena –, ele reconhece os desafios éticos colocados, mas mantém uma postura otimista e aponta como a IA generativa pode transformar o nosso cotidiano. “Com o tempo, o conteúdo interativo gerado por IA será um humano digital conversando com você, como um assistente que pode ajudar com basicamente qualquer coisa.”  

CIÊNCIA HOJE: Redes neurais são um método de inteligência artificial (IA) que ensina computadores a processar dados inspirados no cérebro humano. No caso da IA generativa, um tipo específico de redes neurais, as redes adversárias generativas (GANs, em inglês) são fundamentais. Como elas funcionam?

Hao Li: O aprendizado profundo (deep learning) é uma das áreas da inteligência artificial que têm crescido muito rápido nos últimos sete, oito anos. Trata-se de usar redes neurais artificiais para resolver problemas de aprendizagem de máquina (machine learning). Em vez de você definir como um programa vai funcionar, você entrega para uma rede neural uma quantidade grande de dados para que ela resolva o problema a partir daí. Essas redes neurais nada mais são do que um número enorme de funções matemáticas bem simples colocadas juntas, como camadas, formando parâmetros. Você pode, por exemplo, inserir milhares de imagens de cachorro e treinar essa rede para identificar cachorros.
Em 2014, o cientista da computação norte-americano Ian Goodfellow inventou o conceito de rede adversária generativa, que é basicamente dizer: essas imagens geradas a partir de uma rede neural profunda não são boas, então vamos usar outra rede neural profunda para apontar se são boas ou não. O objetivo é que, com esse treinamento, sejam geradas imagens cada vez mais convincentes.
A partir daí, muitos pesquisadores e empresas levaram isso para um nível acima, fazendo mudanças na arquitetura e no fluxo de dados e como eles são representados. Isso permitiu um aumento de qualidade, e hoje você pode criar imagens em alta resolução não só em 2D, mas em 3D também. É possível não só criar o rosto de uma pessoa em 3D, mas também mudar seu cabelo e controlar seus movimentos. As redes adversárias generativas são, de certa maneira, a joia da coroa da IA generativa. Agora já estamos no nível seguinte, com redes neurais capazes de criar qualquer coisa. É o caso de soluções comerciais, como o Mid-journey [ferramenta que cria imagens a partir de comandos de texto].

As redes adversárias generativas são, de certa maneira, a joia da coroa da IA generativa. Agora já estamos no nível seguinte, com redes neurais capazes de criar qualquer coisa

CH: Como os seus projetos na Universidade de Inteligência Artificial Mohammed bin Zayed, em Abu Dhabi, se posicionam nessa frente de pesquisa?

HL: Nosso trabalho aqui é construir a próxima geração das tecnologias de IA generativa. Elas permitirão a construção de simulações imersivas, e nosso foco é a criação de conteúdo em 3D em tempo real. Nós vivemos em um mundo 3D, então, do ponto de vista da pesquisa, precisamos avançar do 2D para o 3D para conseguirmos criar experiências imersivas. Uma das coisas que estamos desenvolvendo são avatares 3D construídos a partir de algumas fotos utilizando IA generativa. Também estamos reconstruindo ambientes inteiros em 3D a partir de imagens. Isso leva algumas horas, mas nosso objetivo é fazer isso em tempo real, porque não usamos um modelo onde é preciso ‘renderizar’ para juntar todos os objetos na mesma imagem, é um conteúdo em 3D produzido por uma rede neural. Recriando o mundo em 3D, vamos conseguir produzir experiências realmente imersivas, e isso em um contexto em que tecnologias como óculos de realidade virtual e até hologramas vão se tornar mais acessíveis.

CH: Isso é uma enorme quebra de paradigma, não?

HL: Sim, definitivamente. Efeitos visuais de filmes, por exemplo, usam modelos em 3D, depois incluem texturas, luzes e, no final, você precisa ‘renderizar’ tudo. Aqui não. Você inclui fotos, que são comprimidas em uma rede neural profunda, e as imagens são geradas a partir dali. Não há um modelo 3D, entende? E aí você pode ter a cidade de Nova Iorque inteira em um arquivo de 100 megabytes. O modo como vemos o futuro passa um pouco por aí.

Nós vivemos em um mundo 3D, então, do ponto de vista da pesquisa, precisamos avançar do 2D para o 3D para conseguirmos criar experiências imersivas

CH: Quais outras áreas podem se beneficiar dessa tecnologia?

HL: Na universidade, nosso foco é em comunicação, entretenimento e educação. Por quê? Comunicação, porque estamos tentando criar a próxima geração de dispositivos de comunicação que não será 2D, mas 3D. Já na educação, imagine uma sala de aula virtual, em que você quer a presença de outras pessoas. Você precisa criar uma realidade virtual ou alguma experiência desse tipo. Também estamos tentando usar a IA generativa para reconstruir coisas do passado, prédios, cidades que existiram e desapareceram. Hoje você só pode aprender com livros, há vídeos sobre o passado, mas e se, a partir de descrições, fotografias, pinturas, eu pudesse criar um mundo tridimensional ou uma simulação em que as pessoas poderão reviver como era aquilo ali? Nós recriamos um discurso histórico de [Winston] Churchill [primeiro-ministro do Reino Unido de 1940 a 1945 e de 1951 a 1955], por exemplo; Churchill foi gerado em 4K a partir de imagens antigas da época. Estamos focados em coisas que não são possíveis fisicamente, como viajar no espaço e no tempo. Isso é uma coisa. A segunda coisa é que queremos também preservar como nós somos hoje para as futuras gerações. Do passado, temos pinturas. Hoje, temos vídeos; já é mais informação. Em 3D, podemos preservar como são as coisas no nosso presente para pessoas daqui a centenas de anos.

CH: No Fórum Econômico Mundial, em Davos (Suíça), você mostrou para líderes do mundo inteiro como é possível ‘fazer’ alguém falar qualquer coisa em vídeo. Como foi essa experiência?

HL: Bom, antes de ir a Davos, eu já era membro do Fórum Econômico Mundial. Eles têm uma coisa chamada Conselho sobre o Futuro Global, em que reúnem especialistas de várias áreas. Você é meio que um conselheiro. Você está lá para explicar quais são as tecnologias emergentes, seu potencial, possíveis ameaças… tudo que eles precisam saber sobre um assunto. Então, você tem especialistas em impressão 3D, porque é algo que vai mudar a manufatura, e precisa ser conhecido por líderes de empresas, políticos. Eles querem se manter informados. Eu fui convidado por duas razões. A primeira foi quando o [Donald] Trump era presidente [dos Estados Unidos], a inteligência artificial avançava muito rápido e começaram a aparecer as primeiras deep fakes. Muita gente estava falando disso, havia uma grande preocupação sobre o impacto na desinformação; fake news estavam na ordem do dia. Como somos pioneiros nesse tipo de tecnologia, nós quisemos mostrar para os membros do fórum como era fácil criar esse tipo de conteúdo. As pessoas ficaram: “Oh, meu Deus, isso é tecnologia de verdade, não é nenhum efeito de pós-produção, vocês fazem isso em tempo real”. O objetivo era mostrar que aquilo era possível. A tecnologia avança tão rápido que, daqui a seis meses, algo que hoje é impossível pode se tornar possível.

Estamos tentando usar a IA generativa para reconstruir coisas do passado, prédios, cidades que existiram e desapareceram

CH: O quão alarmante é esse avanço tão rápido da IA generativa? Você está preocupado com o risco gerado pelas deep fakes?

HL: Quando começou a se falar em deep fakes, em 2017, 2018, as pessoas disseram que isso seria uma grande ameaça, mas não foi. Não provocou guerras. De fato, foi usado bastante em pornografia, de modo não consensual, em casos de assédio, mas não atingiu uma escala relevante. Eu acho que isso tem a ver com o fato de que você não precisa dessa tecnologia para espalhar informações falsas. Mesmo que você tenha uma deep fake perfeita, você vai precisar de acesso a uma plataforma com credibilidade para as pessoas acreditarem. Isso não é fácil. As pessoas também sabem que existem deep fakes, e que certos conteúdos podem ser deep fakes. Lembre-se do Photoshop. Quando foi lançado, as pessoas disseram: “Oh, é o fim da democracia, porque não podemos mais acreditar nas imagens”. Bem, hoje é só Photoshop. As pessoas não acreditam mais cegamente nas coisas também.

CH: Há várias iniciativas que buscam garantir a integridade das imagens que circulam na internet e identificar conteúdos gerados por IA generativa. Do ponto de vista tecnológico, você vê algo assim próximo?

HL: Há muita pesquisa sobre isso. Por exemplo, para vídeos, há métodos muito bons para identificar alterações, se o movimento dos lábios de quem fala foi manipulado. No caso de conteúdos gerados por inteligência artificial, há vários métodos para fazer isso, porque, em geral, ficam alguns traços, marcas que tornam possível identificar. Mas, no fim das contas, também tem a questão sobre o que é manipulado. Quando você tira uma foto com um iPhone, aquela imagem já está sendo manipulada. A mesma coisa se você coloca um filtro bonito. Porque não é só sobre se é manipulado ou não, mas sim sobre ser manipulado para atingir um objetivo, seja algo ruim ou não. Na maioria dos casos, como colocar um filtro em uma foto, não é nada demais.

Quando começou a se falar em deep fakes, em 2017, 2018, as pessoas disseram que isso seria uma grande ameaça, mas não foi

CH: Há um intenso debate em Hollywood sobre o uso de imagens de artistas pela IA generativa. Você recriou o ator Paul Walker (1973-2013) no filme Velozes e Furiosos 7, lançado em 2015. Como vê as questões éticas envolvidas nesse debate?

HL: Há um grande debate, e eu considero que a preocupação dos atores em relação ao uso de suas imagens pelos estúdios é válida. Acho que há dois tipos diferentes de aplicação. Uma é você desenvolver um aplicativo e permitir que os usuários subam conteúdo ou usem conteúdo gerado ali. Há aplicativos que não assumem nenhuma responsabilidade sobre isso, e jogam tudo nas costas dos usuários. Na Pinscreen, não fornecemos ferramentas para esse tipo de coisa. Para trabalharmos com uma empresa, ela precisa ter todos os direitos dos atores, o consentimento deles, para fazer o que desejam. É muito diferente de permitir que alguém baixe um app e faça o que quiser, porque é algo fora de controle. E, no caso do Paul Walker, não havia IA ali. Não usamos nenhuma dessas tecnologias que temos hoje e eu gostaria que tivéssemos. Os irmãos dele é que foram os dublês, a família queria que fizéssemos aquilo. Eles queriam que o filme fosse finalizado. Veja, não se trata da tecnologia em si, mas dos usos que são feitos dela.

CH: Como você imagina um futuro onde humanos e suas versões digitais vão conviver?

HL: Depende de quão distante no futuro você está pensando. Hoje, humanos digitais já estão nos filmes, nos videogames, na propaganda. Com certeza isso vai crescer, mas não se trata do futuro, é o presente. Em um futuro não muito distante, teremos provavelmente humanos digitais realmente sofisticados e capazes de interagir a partir das nossas demandas. Por exemplo, você é mordido por um inseto e poderá mostrar a picada com o seu celular e interagir com um avatar que vai te orientar sobre como proceder. É mais barato do que ir a um médico, economiza tempo. Quando a resposta é só em texto, há muito mais chances de você ter dúvidas sobre o que a outra pessoa quis dizer. Hoje, o problema desses robôs criados por IA é que eles continuam parecendo robôs. Isso não funciona, mas estamos avançando rápido para superar isso.

Com o tempo, o conteúdo interativo gerado por IA será um humano digital conversando com você, como um assistente que pode nos ajudar com basicamente qualquer coisa

CH: As pessoas devem ficar empolgadas ou temerosas com vídeos e até humanos criados a partir da IA generativa?

HL: Empolgadas ou não, com medo ou não, o importante é as pessoas saberem o que é possível. O mundo avança muito rápido. Saímos de um mundo onde não havia internet e, de repente, todo mundo tem smartphones, e você consegue informação onde e na hora que quiser. Você pode gravar e compartilhar vídeos, se comunicar com o mundo todo. O que vem agora é que toda essa informação está disponível, e você tem uma inteligência capaz de pegar isso tudo, processar todo esse conteúdo e entregar o que você quiser, de modo bastante preciso. Meu cachorro estava muito doente, e o ChatGPT [ferramenta de IA generativa desenvolvida pela OpenIA capaz de responder perguntas, traduzir textos etc.] me deu uma resposta melhor que qualquer médico, instantaneamente. Claro que você pode questionar se isso está certo ou errado, mas você pode usar essa resposta como referência. Com o tempo, o conteúdo interativo gerado por IA será um humano digital conversando com você, como um assistente que pode nos ajudar com basicamente qualquer coisa.

VEJA +

Assista à palestra de Hao Li no VFXRIo:

Seu Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Outros conteúdos desta edição

725_480 att-84276
725_480 att-84242
725_480 att-84493
725_480 att-84947
725_480 att-84224
725_480 att-84191
725_480 att-84268
725_480 att-84281
725_480 att-84229
725_480 att-84236
725_480 att-84249
725_480 att-84383
725_480 att-84407
725_480 att-84261
725_480 att-84347

Outros conteúdos nesta categoria

725_480 att-90561
725_480 att-90158
725_480 att-89264
725_480 att-88721
614_256 att-88318
725_480 att-87661
725_480 att-87157
725_480 att-86817
725_480 att-86074
725_480 att-85453
614_256 att-85187
725_480 att-84683
725_480 att-83943
725_480 att-83339
725_480 att-83108