Explorar modelos de geração de imagens

Objetivos de aprendizagem

Após concluir esta unidade, você estará apto a:

Descrever as vantagens de usar modelos de difusão em vez de redes adversárias generativas.
Identificar ferramentas de IA generativa populares e descrever seu uso.

Passando das palavras às imagens

Embora a inteligência artificial generativa (IA generativa) seja uma tecnologia relativamente nova, ela já está ajudando pessoas e empresas a trabalhar com maior eficiência. Talvez você já a tenha usado para resumir anotações de uma reunião, esboçar um projeto de texto ou criar código. Todos esses usos de ferramentas de IA generativa têm algo em comum: eles têm como foco criar texto de um jeito ou de outro.

Existe um outro mundo de ferramentas de IA generativa que podem criar imagens em alta qualidade, objetos 3D e animações, tudo com o poder dos grandes modelos de linguagem. Então, se você começou a usar a IA generativa para turbinar suas tarefas de escrita, é provável que possa se beneficiar do uso de IA generativa para melhorar seu trabalho com imagens e animações.

Neste emblema, você conhecerá alguns recursos atuais e em rápido desenvolvimento da IA generativa na área de multimídia. Você verá maneiras de incorporar eficazmente a IA generativa ao seu fluxo de trabalho. E você refletirá sobre algumas das questões desafiadoras que envolvem o uso responsável da IA generativa na criação de imagens.

Este módulo menciona conceitos como treinamento de modelos de IA/aprendizagem de máquina, grandes modelos de linguagem e qualidade/viés dos dados. Se você precisa rever alguns desses conceitos, confira a trilha Introdução à inteligência artificial.

Avanços nos modelos de IA

Vamos tirar um momento para pensar em como esse mundo foi afetado pelos grandes modelos de linguagem. Antes de os LLMs virarem moda, os pesquisadores já estavam há anos treinando IA para produzir imagens. Mas esses modelos eram limitados de maneira realmente significativa.

Por exemplo, um tipo de arquitetura de rede neural que era promissor era a rede adversária generativa (GAN, Generative Adversarial Network). Resumindo: duas redes eram configuradas para brincar de gato e rato. Uma tentava criar imagens realistas e a outra tentava distinguir entre as imagens geradas e as imagens reais. Com o tempo, a primeira rede ficava muito boa em enganar a segunda.

Esse método é capaz de gerar imagens muito convincentes sobre todo tipo de assunto, incluindo pessoas. No entanto, as GANs costumam ficar excelentes em criar imagens de apenas um tipo de assunto. Ou seja, uma GAN que fosse ótima para criar imagens de gatos era terrível para criar imagens de ratos. Também existia a possibilidade de que uma GAN sofresse um "colapso de modo", em que a primeira rede criava a mesma imagem repetidamente porque sabia que essa imagem enganava a segunda. Uma IA que só cria uma imagem não é particularmente útil.

Realmente útil seria um modelo de IA que pudesse criar imagens de vários assuntos, que poderia ser um gato, um rato ou um gato fantasiado de rato.

Uma imagem fofa de ilustração de um gato vestindo uma fantasia de rato.

Imagem gerada por IA usando o DreamStudio em stability.ai com o prompt: "Uma imagem fofa de ilustração de um gato vestindo uma fantasia de rato."

Como a imagem gerada por IA acima demonstra, esses modelos já existem! Eles são conhecidos como modelos de difusão porque a matemática subjacente tem a ver com o fenômeno físico de difusão, como uma gota de pigmento em um copo d'água. Como na maioria dos modelos de IA, os detalhes técnicos fazem parte de artigos científicos incrivelmente complexos.

O importante a se saber é que os modelos de difusão são treinados para fazer conexões entre imagens e texto. O fato de existirem várias imagens de gato com legendas na internet acaba ajudando. Com amostras suficientes, um modelo pode extrair a essência de "gato", "rato" e "fantasia". Assim, ele incorpora a essência a uma imagem gerada usando princípios de difusão. É complicado, mas os resultados costumam ser impressionantes.

O número de modelos de difusão disponíveis está aumentando a cada dia, mas os quatro mais conhecidos são DALL-E, Imagen, Stable Diffusion e Midjourney. Cada um varia em relação aos dados usados para treinamento, à forma como incorpora os detalhes de linguagem e como os usuários podem interagir com ele para controlar o produto final. Ou seja, os resultados variam bastante entre as ferramentas. E o que um modelo faz bem hoje, outro pode fazer melhor amanhã, dependendo dos desdobramentos e das pesquisas que forem feitas.

Usos de IA generativa em imagem

A IA generativa pode fazer mais do que apenas criar ilustrações fofas de gatos. Muitas vezes, os modelos de IA generativa são ajustados e combinados com outros algoritmos e modelos de IA. Isso permite que artistas e curiosos criem, manipulem e animem imagens de maneiras muito diferentes. Vamos conferir alguns exemplos.

Texto-para-imagem

Você pode conseguir muita variedade artística usando IA generativa de texto-para-imagem. Em nosso exemplo, escolhemos um gato em estilo ilustrado. Mas poderíamos ter escolhido um estilo hiper-realista ou representado a cena em mosaico. Se você consegue imaginar, os modelos de difusão conseguem interpretar sua intenção com algum sucesso.

Na próxima unidade, você aprenderá dicas de como obter os melhores resultados, mas, por enquanto, entenda que o primeiro limite ao que você pode criar é o que você consegue imaginar. Veja o que outras pessoas estão criando com os vários modelos de difusão.

A capacidade de usar geração de imagens junto com a geração de texto apareceu recentemente. Assim, enquanto você cria uma história com algumas ferramentas de GPT, elas podem usar o contexto para gerar uma imagem. Melhor ainda, se você precisa de outra imagem que inclua o mesmo assunto, por exemplo, nosso gato fantasiado, esses modelos podem usar a primeira imagem como referência para manter a consistência do personagem.

Modelo Texto-para-3D

Normalmente, as ferramentas de criação de modelos 3D são técnicas e exigem um elevado nível de domínio de habilidades. Entretanto, estamos vivendo uma época em que os modelos 3D estão aparecendo em mais lugares do que nunca, do comércio, até a manufatura e o entretenimento. Deixe a IA generativa ajudar a atender parte dessa demanda. Modelos como o usado no DreamFusion podem gerar modelos 3D incríveis e têm recursos de apoio para descrever a coloração, a iluminação e as propriedades materiais dos modelos.

Imagem-para-imagem

Se uma imagem vale mil palavras, imagine como ela pode ser útil como parte de um prompt em um modelo de IA generativa! Alguns modelos são treinados para extrair significado das imagens, usando treinamento semelhante ao que permite a geração de texto-para-imagem. Essa tradução bilateral é a base dos casos de uso abaixo.

Transferência de estilo: comece com um rascunho simples e uma descrição do que está acontecendo na imagem e deixe que a IA generativa preencha os detalhes. O resultado pode ser em um estilo artístico específico, por exemplo, uma pintura do Renascimento ou um desenho arquitetônico. Alguns artistas fazem isso iterativamente para criar uma imagem.
Remover detalhes: digamos que você visitou a Torre de Pisa e tirou uma foto de si mesmo fingindo impedir a torre de cair com sua própria força. Infelizmente, 20 outras pessoas estão na foto fazendo exatamente o mesmo. Sem problemas: você pode removê-las e deixar a IA preencher as lacunas com grama e céu realistas para deixar a foto ótima.
Pintar os detalhes: como uma pantera pode ficar com um chapéu de aniversário? Você pode descobrir de uma maneira muito perigosa ou de outra maneira mais segura usando a IA generativa. Ferramentas são usadas para identificar locais específicos de itens em uma cena e, como mágica, elas aparecem como se sempre tivessem estado lá.
Estender limites da imagem: a IA generativa usa o contexto da imagem para continuar o que provavelmente apareceria no limite de uma imagem.

Animação

Como existe determinada quantidade de aleatoriedade inerente a todas as imagens geradas, a criação de uma série de imagens ligeiramente diferentes é um desafio específico da IA generativa. Ou seja, quando você compara uma imagem com outra, as variações ficam óbvias, as linhas e as formas mudando e tremendo. Mas os pesquisadores desenvolveram métodos de redução desse efeito para que as animações geradas tenham um nível aceitável de consistência.

Todos os casos de uso de imagens estáticas anteriores podem ser adaptados para animação de alguma forma. Por exemplo, a transferência de estilo pode pegar um vídeo de um skatista fazendo uma manobra e transformá-lo em um vídeo estilo anime. Ou usar um modelo treinado em padrões de fala para animar os lábios de um personagem 3D gerado.

Existem muitas possibilidades de se criar imagens impressionantes com IA generativa. Na próxima unidade, você verá maneiras responsáveis de se fazer uso dos recursos de IA generativa.

Recursos

Trailhead: Introdução à inteligência artificial

Tempo estimado

Tópicos

Procurando ajuda?