Explorar modelos de generación de imágenes

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Describir las ventajas del uso de los modelos de difusión en lugar de las redes generativas adversativas.
Identificar herramientas de IA generativa populares y describir sus usos.

Pasar de palabras a imágenes

A pesar de que la IA generativa es una tecnología relativamente nueva, ya ayuda a las personas y a las organizaciones a trabajar de manera más eficaz. Es posible que la haya utilizado para resumir notas tomadas en reuniones, realizar una primera descripción de un proyecto de escritura o crear código. Todas estas aplicaciones de herramientas de IA generativa tienen algo en común: se centran en crear texto, de una forma u otra.

Hay otro mundo de herramientas de IA generativa que puede crear imágenes de alta calidad, objetos 3D y animaciones, gracias a la potencia de los modelos de lenguaje grandes (LLM). Si ha empezado a utilizar la IA generativa para potenciar las tareas de escritura, es probable que pueda beneficiarse del uso de la IA generativa a fin de mejorar su trabajo con imágenes y animaciones.

En esta insignia aprenderá sobre algunas de las capacidades actuales y que mejoran rápidamente de la IA generativa en el espacio multimedia. Descubrirá maneras para incorporar IA generativa a su flujo de trabajo de forma eficaz. También reflexionará sobre algunas de las preguntas más complejas sobre el uso responsable de la IA generativa para la creación de imágenes.

En este módulo se mencionan conceptos como modelo de entrenamiento de la IA o aprendizaje automático, modelos de lenguaje grandes y calidad o sesgo de datos. Si necesita hacer una revisión de estos conceptos, consulte la ruta Introducción a la inteligencia artificial.

Avances en los modelos de IA

Tomémonos un momento para apreciar la manera en la que el mundo se ha visto afectado por los modelos de lenguaje grandes. Antes de que los LLM saltaran a la fama, los investigadores habían estado entrenando a la IA durante años para que produjera imágenes. Pero estos modelos se han limitado en maneras significantes.

Por ejemplo, un tipo de arquitectura de red neuronal que parecía prometedora era la red generativa adversativa (GAN). En pocas palabras, se establecían dos redes para jugar al juego del gato y el ratón. Una intentaría crear imágenes realistas y la otra intentaría distinguir las imágenes generadas de las imágenes reales. Con el tiempo, la primera red aprendió a engañar a la segunda.

Este método es capaz de generar imágenes muy convincentes de todo tipo de temas, incluidas las personas. Sin embargo, la red generativa adversativa suele destacar en crear imágenes de un solo tema. Por ello, una red generativa adversativa que es brillante en la tarea de crear imágenes de gatos sería horrible en la tarea de crear imágenes de ratones. También existe la posibilidad de que una red generativa adversativa experimente un colapso de modo, en cuyo caso la primera red crea la misma imagen una y otra vez, ya que se sabe que esa imagen siempre engaña a la segunda red. Una IA que solo crea una imagen no es precisamente útil.

Lo que sí que sería útil es un modelo de IA que pudiera crear imágenes de una variedad de temas, ya sea sobre un gato, un ratón o un gato con un disfraz de ratón.

Una imagen bonita y dibujada a mano de un gato con un disfraz de ratón.

Imágenes generadas con IA utilizando DreamStudio en stability.ai con el mensaje: "Una imagen bonita y dibujada a mano de un gato con un disfraz de ratón".

Tal y como se muestra en la anterior imagen generada por IA, esos modelos ya existen. Se les conoce como modelos de difusión, ya que el cálculo subyacente se relaciona con el fenómeno físico de algo difuso, como una gota de tinta en un vaso de agua. Al igual que la mayoría de los modelos de IA, los detalles técnicos son el resultado de documentos de investigación increíblemente complejos.

Lo más importante que hay que saber es que los modelos de difusión se entrenan para realizar conexiones entre imágenes y texto. El hecho de que haya tantas imágenes de gatos en internet resulta útil. Con ejemplos suficientes, un modelo puede extraer la esencia de "gato", "ratón" y "disfraz". Después, integra esa esencia en una imagen generada utilizando principios de difusión. Es complicado, pero los resultados suelen ser impresionantes.

El número de modelos de difusión disponibles crece cada día, pero cuatro de los más conocidos son DALL-E, Imagen, Stable Diffusion, y Midjourney. Cada uno se diferencia en los datos que utiliza para el entrenamiento, la manera en la que integra los detalles del lenguaje y la manera en la que los usuarios pueden interactuar con él para controlar el resultado. Por ello, los resultados difieren de una herramienta a otra. Es posible que lo que un modelo es capaz de hacer bien hoy, otro modelo lo haga mejor mañana, ya que la investigación y el desarrollo evolucionan.

Usos de la IA generativa para la creación de imágenes

La IA generativa puede hacer mucho más que crear dibujos de gatos adorables. A menudo, los modelos de IA generativa están ajustados y se combinan con otros algoritmos y modelos de IA. Esto permite que los artistas y reparadores creen, manipulen y animen imágenes de varias formas. Veamos algunos ejemplos.

Texto a imagen

Puede conseguir una gran cantidad de variedad artística utilizando IA generativa de texto a imagen. En nuestro ejemplo, elegimos un gato con un estilo de dibujado a mano. Pero podríamos haber elegido un estilo hiperrealista o haber representado la escena como un mosaico. Si puede imaginarlo, los modelos de difusión pueden interpretar su intención con éxito.

En la siguiente unidad, aprenderá algunos consejos para obtener los mejores resultados, pero, por ahora, solo debe comprender que el primer límite sobre lo que puede crear es aquello que pueda imaginar. Eche un vistazo a lo que otras personas crean con los diferentes modelos de difusión.

La habilidad de usar la generación de imágenes en línea con la generación de texto ha surgido recientemente. A medida que desarrolla una historia con herramientas de GPT, se puede utilizar el contexto para generar una imagen. Incluso mejor, si necesita otra imagen que incluya el mismo tema, como el disfraz de gato, los modelos pueden utilizar la primera imagen de referencia para mantener la coherencia de los caracteres.

Texto a modelo 3D

Normalmente, las herramientas que crean modelos 3D son técnicas y requieren un alto nivel de habilidad para controlarlas. Sin embargo, nos encontramos en un momento en el que los modelos 3D aparecen en más sitios que nunca, desde el comercio hasta la fabricación o el entretenimiento. Deje que la ayuda de la IA generativa satisfaga parte de la demanda. Los modelos, como el que se ha utilizado con DreamFusion, pueden generar modelos 3D increíbles, junto con recursos de apoyo a fin de describir el color, la luz y las propiedades del material de los modelos.

Imagen a imagen

Si una imagen vale más que mil palabras, imagine lo útil que resulta como parte de la solicitud para un modelos de AI generativa. Algunos modelos se entrenan para extraer significado de imágenes, utilizando un entrenamiento similar que permite la generación de texto a imagen. Esta conversión bidireccional es la base para los siguientes casos de uso.

Transferencia de estilo: Comience con un boceto simple y una descripción de lo que ocurre en la escena y permita que la IA generativa complete todos los detalles. El resultado puede ser en un estilo artístico específico, como una pintura renacentista o un dibujo arquitectónico. Algunos artistas hacen esto repetidamente para crear una imagen.
Ocultación de detalles: Imagine que visita la Torre de Pisa y se saca una foto estupenda pretendiendo sostener la torre con su propia fuerza. Por desgracia, otras 20 personas aparecen en la foto haciendo lo mismo que usted. No se preocupe. Ahora, puede hacer que desaparezcan y dejar que la IA rellene los espacios con césped realista y cielo para conseguir una foto impoluta.
Adición de detalles: ¿Qué aspecto tendría una pantera con un gorrito de fiesta? Existe una manera peligrosa de averiguarlo y otra mucho más segura en la que solo tiene que utilizar IA generativa. Las herramientas se utilizan para identificar ubicaciones específicas para los elementos en una escena, y por arte de magia, aparecen como si realmente estuviese ahí.
Prolongación de los límites de la imagen: La IA generativa utiliza el contexto de la imagen para continuar con lo que es probable que aparezca más allá de los límites de la escena.

Animación

Dado que existe cierta cantidad de arbitrariedad inherente en las imágenes generadas, la creación de una serie de imágenes diferentes supone un desafío para la IA generativa. Al reproducir una imagen después de otra, las variaciones saltan a la vista, las líneas y formas cambian y resplandecen. Pero los investigadores han desarrollado métodos para reducir ese efecto, de manera que las animaciones generadas tengan un nivel de consistencia aceptable.

Todos los casos de uso anteriores de imágenes fijas pueden adaptarse a una animación de alguna manera. Por ejemplo, la transferencia de estilo puede convertir un vídeo de un skater haciendo algún truco en un vídeo de estilo anime. O bien, puede utilizar un modelo entrenado en patrones de habla para animar los labios de un personaje 3D generado.

Existen muchas posibilidades de crear imágenes impresionantes con IA generativa. En la siguiente unidad, aprenderá maneras responsables de utilizar las capacidades de la IA generativa.

Recursos

Trailhead: Introducción a la inteligencia artificial

Estimación de tiempo

Temas

¿Necesita ayuda?