Explorar los modelos de generación de imágenes

Objetivos de aprendizaje

Después de completar esta unidad, podrá:

Describir las ventajas de usar los modelos de difusión por sobre las redes generativas antagónicas.
Identificar las herramientas de IA generativa populares y describir sus usos.

Pasar de las palabras a las imágenes

Si bien la inteligencia artificial generativa (IA generativa) es una tecnología bastante nueva, ya está ayudando a personas y organizaciones a trabajar de forma más eficiente. Puede que la haya usado para resumir las notas de una reunión, hacer un borrador de primeros pasos para un proyecto de redacción o crear códigos. Todas estas aplicaciones de herramientas de IA generativa tienen algo en común: solo se enfocan en crear texto de alguna forma u otra.

Existe otro mundo de herramientas de IA generativa que pueden crear imágenes de alta calidad, objetos 3D y animaciones con el poder de los modelos de lenguaje grande (LLM). Si empezó a usar la IA generativa para potenciar tareas de redacción, es probable que se beneficie de usarla para mejorar su trabajo con imágenes y animaciones.

En esta insignia, aprenderá acerca de algunas de las capacidades actuales de la IA generativa que están mejorando rápidamente en el espacio multimedia. Descubrirá formas de incorporar de manera eficiente la IA generativa a su flujo de trabajo. Además, podrá reflexionar sobre algunas de las preguntas que suponen un desafío acerca del uso responsable de la IA generativa para la creación de imágenes.

Este módulo hace referencia a conceptos como el aprendizaje automático/de entrenamiento de modelos de IA, los modelos de lenguaje grande y los sesgos/la calidad de los datos. Si necesita revisar algunos de esos conceptos, consulte la ruta Introducción a la inteligencia artificial.

Avances de los modelos de IA

Dediquemos un momento para apreciar el efecto que tuvieron los modelos de lenguaje grande en el mundo. Antes del auge de los LLM, durante años, varios investigadores habían entrenado la IA para producir imágenes. Sin embargo, esos modelos estaban limitados de formas bastante significativas.

Por ejemplo, un tipo de arquitectura de red neuronal que parecía prometedora era la red generativa antagónica (GAN). En resumen, se establecieron dos redes que juegan al gato y el ratón. Una intenta crear imágenes realistas y la otra intenta marcar una distinción entre las imágenes generadas y las reales. Con el tiempo, la primera red supo engañar mejor a la segunda.

Este método es capaz de generar imágenes bastante convincentes de todo tipo de temas, incluidas personas. Sin embargo, las GAN, en general, se destacan en crear imágenes de un solo tema. Así que una GAN que es excelente para crear imágenes de gatos sería terrible para crear imágenes de ratones. También es posible que ocurra un “modo de contracción” en una GAN, donde la primera red crea la misma imagen reiteradas veces, porque se sabe que esa imagen siempre engaña a la segunda. Una IA que solo crea una imagen no es del todo útil.

Lo que en verdad sería útil es un modelo de IA que pueda crear imágenes para una variedad de temas, ya sea que pidamos un gato, un ratón o un gato disfrazado de ratón.

Una adorable imagen dibujada a mano de un gato disfrazado de ratón.

Imagen generada mediante IA con DreamStudio en stability.ai a través de la solicitud: “Una adorable imagen dibujada a mano de un gato disfrazado de ratón”.

Como lo demuestra la imagen de arriba generada por IA, esos modelos ya existen. Se los conoce como modelos de difusión, porque la matemática subyacente se relaciona con el fenómeno físico de difundir algo, por ejemplo, una gota de tintura en un vaso de agua. Al igual que la mayoría de los modelos de IA, los detalles técnicos se basan en documentos de investigación muy complejos.

Es importante saber que los modelos de difusión se entrenan para generar conexiones entre imágenes y texto. Sirve que haya muchas imágenes de gatos etiquetadas en Internet. Con la suficiente cantidad de ejemplos, un modelo puede extraer la esencia de “gato”, “ratón” y “disfraz”. Luego, integra esa esencia en una imagen generada con los principios de difusión. Es complicado, pero los resultados generalmente son increíbles.

La cantidad de modelos de difusión disponibles está creciendo, pero estos cuatro son los más conocidos: DALL-E, Imagen, Stable Diffusion y Midjourney. Cada uno difiere en los datos que se usan para el entrenamiento, en la forma en que integra los detalles de lenguaje y cómo los usuarios interactúan con los datos para controlar los resultados. Por lo tanto, los resultados varían de forma significativa según la herramienta. En la actualidad, lo que un modelo hace bien, otro puede hacerlo mejor mañana a medida que la investigación y el desarrollo avanzan con rapidez.

Usos de la IA generativa para imágenes

La IA generativa no solo crea adorables animaciones de gatos. A menudo, los modelos de IA generativa se ajustan y se combinan con otros algoritmos y modelos de IA. Esto permite que los artistas y creadores puedan crear, manipular y animar imágenes de varias formas. Veamos algunos ejemplos.

De texto a imagen

Con la IA generativa de texto a imagen, puede alcanzar una increíble variedad de resultados artísticos. En nuestro ejemplo, elegimos un estilo de gato dibujado a mano, pero podríamos haber elegido un diseño hiperrealista o haber representado la escena como un mosaico. Si se lo imagina, los modelos de difusión pueden interpretar su intención con bastante éxito.

En la próxima unidad, aprenderá algunos consejos para obtener los mejores resultados, pero, por ahora, sepa que el primer límite de lo que puede crear es hasta dónde llega su imaginación. Explore lo que están creando otros con los diferentes modelos de difusión.

La capacidad de usar la generación de imágenes en línea con la generación de texto surgió recientemente. Entonces, a medida que desarrolla una historia con algunas herramientas de GPT, pueden usar el contexto para generar una imagen. Aun mejor, si necesita otra imagen que incluya el mismo tema, como nuestro gato disfrazado, esos modelos pueden usar la primera imagen como referencia para mantener la consistencia del personaje.

De texto a modelo 3D

Por lo general, las herramientas para crear modelos 3D son técnicas y dominarlas requiere un nivel de habilidad alto. Sin embargo, estamos en un momento en que los modelos 3D están más presentes que nunca, desde el comercio, la fabricación, hasta el entretenimiento. Permita que la IA generativa cumpla con algunas de sus demandas. Los modelos similares a los que se usan para DreamFusion pueden generar asombrosos modelos 3D, junto con recursos de asistencia para describir las propiedades de color, iluminación y material de los modelos.

De imagen a imagen

Si una imagen vale más que mil palabras, imagínese lo útil que será cuando forme parte de una solicitud para un modelo de IA generativa. Algunos modelos están entrenados para extraer el significado de imágenes con un entrenamiento parecido al que permite la generación de texto a imagen. Esta traducción bidireccional es la base de los siguientes casos de uso.

Transferencia de estilo: empiece con un bosquejo sencillo y una descripción de lo que está sucediendo en la escena y permita que la IA generativa termine los detalles. El resultado puede tener un tipo de estilo artístico específico, como el de una pintura renacentista o un dibujo arquitectónico. Algunos artistas hacen esto de forma iterativa para crear una imagen.
Dibujar los detalles: supongamos que visita la torre inclinada de Pisa y se saca una foto en la que pretende estar sosteniendo la torre usando solo su fuerza. Desafortunadamente, hay 20 personas que aparecen en la foto haciendo lo mismo. No se preocupe; ahora puede recortarlas de la imagen y hacer que la IA llene los espacios vacíos con césped y un cielo claro.
Dibujar los detalles: ¿cómo se vería una pantera con un sombrero para fiestas? Existe una forma de saberlo que es peligrosa y una forma mucho más segura usando la IA generativa. Las herramientas permiten identificar la ubicación específica de elementos en una escena y, como por arte de magia, aparecen como si siempre hubieran estado ahí.
Ampliar los bordes de imágenes: la IA generativa usa el contexto de la imagen para continuar lo que podría aparecer más allá del borde de la escena.

Animación

Debido a que existe una gran cantidad de elementos aleatorios inherentes a todas las imágenes generadas, crear una serie de imágenes apenas diferentes es un desafío para la IA generativa. Así que cuando va pasando las imágenes, las variaciones se destacan, y las líneas y formas cambian y brillan. Los investigadores desarrollaron métodos para reducir ese efecto de modo que las animaciones generadas tengan un nivel aceptable de consistencia.

Todos los casos de uso anteriores para las imágenes fijas se pueden adaptar de alguna forma a la animación. Por ejemplo, la transferencia de estilo puede transformar un video de un patinador haciendo trucos en un video con un estilo de anime. También puede usar un modelo entrenado en patrones de discurso para animar los labios de un personaje generado en 3D.

Existen grandes posibilidades para crear imágenes increíbles con IA generativa. En la próxima unidad, aprenderá formas responsables de usar las capacidades de la IA generativa.

Recursos

Trailhead: Introducción a la inteligencia artificial

¿Necesita ayuda?