Nvidia cria AI que consegue transformar rabiscos em imagens reais de paisagens

Nvidia cria AI que consegue transformar rabiscos em imagens reais de paisagens


Batizado de GauGAN, programa é uma espécie de Microsoft Paint turbinado com machine learning


Carla Matsu*
Ontem às 23h34

 
Foto: Divulgação

Redes neurais têm evoluído de tal forma que hoje já é possível transformar rabiscos nada inspiradores em imagens convincentes, pelo menos caso você recorra às ferramentas de Generative Adversarial Networks (GANs) da Nvidia. A fabricante apresentou nesta segunda-feira (18/03) durante a GPU Technology Conference 2019, que acontece nesta semana em San Jose (CA), os avanços do Nvidia Research em colaboração com pesquisadores do MIT e da UC Berkeley na fabricação de imagens geradas a partir de inteligência artificial.
Em resumo, os pesquisadores conseguiram treinar as redes neurais para sintetizar mapas de cor em imagens reais, daquelas que você poderia tirar com câmera do seu celular. A aplicação foi batizada de GauGAN, um trocadilho entre Generative Adversarial Networks e o pintor pós-impressionista francês Gaugin. Segundo Bryan Catanzaro, vice-presidente de pesquisa aplicada em Deep Learning na Nvidia, esse tipo de solução representa o futuro da tecnologia de renderização.
"Quando pensamos sobre a inteligência artificial mudando a computação gráfica, gerando novas ferramentas, esse é o tipo de coisa sobre a qual ficamos animados", ressaltou durante coletiva de imprensa. Para gerar imagens sintéticas em tempo real, a Nvidia usou computadores de alto desempenho, com GPU dedicada.

A AI que imita a vida a real
À primeira vista, o GauGAN se assemelha ao nostálgico Microsoft Paint, se fosse alimentado com inteligência artificial. A manipulação da imagem, entretanto, recorre à tags pré-definidas para criar a paisagem desejada pelo usuário. Pense aqui em ferramentas que projetam automaticamente o céu ou árvores, nuvens, montanhas, gramas, rio e neve. Para chegar a uma imagem que se assemelha aquele clássico papel parede do Windows, o usuário rascunha formas geométricas para uma montanha selecionando a tag específica para tal, e desenha outra forma para delimitar o céu, por exemplo. Do lado direito da tela, a imagem sintética vai sendo criada.
Uma das características mais interessantes do software é a capacidade de ele entender o contexto das tags escolhidas para reforçar a “realidade" fabricada. Opte por acrescentar “neve" a sua imagem e o software entenderá que as folhas da árvores deverão estar secas e a grama queimada. Pinte um lago entre árvores e o programa projetará os reflexos das árvores na água. O GauGAN ainda completa a cena com outros detalhes como textura, sombras, graduações de cores etc.
Para mimetizar as imagens e reproduzir coisas minuciosas como sombras em um entardecer, os pesquisadores da Nvidia treinaram as redes neurais com centenas de milhares de imagens encontradas em repositores como o Flickr. "A internet nos ajudou a ensinar a inteligência artificial", destacou Catanzaro reforçando se tratar de imagens sob a licença Creative Commons.

Não é a primeira vez que a Nvidia apresenta esse tipo de habilidade que nos faz questionar o quão longe a inteligência artificial está indo. No final do ano passado, a companhia publicou um artigo onde mostrava como redes neurais já estão sendo usadas para gerar rostos humanos artificiais. Questionado sobre como a evolução da tecnologia poderia contribuir com o levante de fake news e os chamados deep fakes (vídeos manipulados digitalmente), Catanzaro disse se tratar de um assunto importante a ser debatido, mas que acredita dizer mais sobre a confiança do usuário do que da evolução da tecnologia.
Mas para além da manipulação adversa desse tipo de tecnologia, há áreas que poderiam se beneficiar desses avanços, e elas se concentram no rentável mercado de computação gráfica; na pós-produção cinematográfica; escritórios de arquitetura e engenharia. “Com uma AI que entende como o mundo funciona, esses profissionais poderiam melhor prototipar ideias e fazer rápidas mudanças em uma cena sintética”, sugere a Nvidia.
Segundo a Nvidia, os GANS conseguem produzir resultados convincentes devido sua estrutura e também por suas redes atuarem de duas formas: uma geradora e um discriminadora. Treinadas em imagens reais, a rede discriminadora ensina a geradora com feedback pixel por pixel em como melhorar o realismo das imagens sintéticas. Depois de ser treinada em imagens reais, a discriminadora sabe que um lago contém ondulações, então a geradora aprende a criar uma imitação convincente. Essa tecnologia, segundo a Nvidia, não apenas "gruda" as imagens de outras ou cola texturas. Ela realmente está sintetizando novas imagens, de forma muito similar a como um artista desenharia algo.
A Nvidia não tem planos de lançar o software comercialmente, mas Catanzaro espera que o software seja disponibilizado no novo AI Playground da Nvidia. Este site permite que qualquer pessoa interaja com demonstrações de pesquisas recentes da Nvidia na área de computação gráfica, ao mesmo tempo que ajuda a fabricante a treinar suas redes neurais. Já o artigo que sustenta o GauGAN será apresentado na conferência Computer Vision and Pattern Recognition em junho deste ano.

Fonte: ITMídia

Comentários