Um pintor novato pode colocar o pincel na tela com o objetivo de criar uma paisagem deslumbrante ao pôr do sol - picos escarpados e cobertos de neve refletidos num lago vítreo - apenas para acabar com algo que mais parece uma mancha de tinta multicolorida.
Mas um novo modelo de aprendizagem profunda desenvolvido pela NVIDIA Research é capaz de fazer exatamente o oposto: transforma rabiscos rápidos em obras-primas fotorrealísticas de tirar o fôlego. A ferramenta tira partido de generative adversarial networks, ou GANs, para converter mapas de segmentação em imagens realistas.
A aplicacao interativa que utiliza este modelo, numa leve homenagem ao pintor pós-impressionista, foi batizada de GauGAN.
GauGAN pode vir a oferecer uma poderosa ferramenta para criar mundos virtuais para todos, desde arquitetos a planejadores urbanos a paisagistas ou até na criação de jogos. Com uma inteligência artificial capaz de entender como o mundo real se parece, profissionais desta área poderiam prototipar ideias e fazer mudanças rápidas numa cena sintética.
"É muito mais fácil fazer brainstorming de projetos com esboços simples, e esta tecnologia é capaz de converter esses esboços em imagens altamente realistas", disse Bryan Catanzaro, vice-presidente de pesquisa de aprendizagem profunda aplicada da NVIDIA.
Catanzaro compara a tecnologia por detrás de GauGAN a um “pincel inteligente” que pode preencher os detalhes dentro de "mapas de segmentação", os contornos de alto nível que mostram a localização dos objetos numa cena.
GauGAN permite que os utilizadores desenhem os seus próprios mapas de segmentação e manipulem a cena, complementando cada segmento com rótulos como areia, céu, mar ou neve.
Treinado com um milhão de imagens, o modelo de aprendizagem profunda preenche a paisagem com resultados impressionantes: se desenharmos um lago e os seus elementos próximos, como árvores e rochas, estes irão aparecer como reflexos na água. Trocamos um rótulo de segmento de “relva” para “neve” e a imagem inteira muda para uma cena de inverno, com uma árvore frondosa que virou estéril.
"É como uma foto tirada de um livro de colorir que descreve onde está uma árvore, onde está o sol, onde está o céu", disse Catanzaro. "E então a rede neural é capaz de preencher todos os detalhes e texturas, os reflexos, sombras e cores, com base no que aprendeu sobre imagens reais."
Apesar da falta de compreensão do mundo físico, as GANs podem produzir resultados convincentes devido à sua estrutura como um par cooperativo de redes: um gerador e um discriminador. O gerador cria imagens que depois apresenta ao discriminador. Então, treinado com imagens do mundo real, o discriminador guia o gerador com feedback pixel-a-pixel sobre como melhorar o realismo das suas imagens sintéticas.
Após o treino com imagens reais, o discriminador sabe que lagoas e lagos do mundo físico contêm reflexos - então o gerador aprende a criar uma imitação convincente.
A ferramenta também permite que os utilizadores adicionem filtros, alterem uma imagem gerada para adaptar o estilo de um determinado pintor ou até que mudem uma cena diurna para o pôr do sol.
"Esta tecnologia não se limita apenas a juntar peças de outras imagens ou cortar e colar texturas", disse Catanzaro. "É realmente sintetizar novas imagens, muito semelhante à forma como um artista desenharia algo."
Enquanto a aplicação GauGAN se concentra em elementos da natureza como terra, mar e céu, a rede neural subjacente é capaz de preencher outras características da paisagem, incluindo edifícios, estradas e pessoas.
O trabalho de pesquisa por trás de GauGAN foi aceite como uma apresentação oral na conferência do CVPR em junho - um reconhecimento concedido a apenas 5% de mais de 5.000 inscrições.
Traduzido por Maria Duarte
Comments