Opinión

En la mente de DALL-E

Publicado el

12 julio, 2022

por

En las últimas semanas hemos sido testigos de cómo Internet se ha inundado de imágenes inverosímiles creadas gracias a la segunda versión de la red neuronal DALL.E, de OpenAI, cuya beta aún tiene acceso restringido, y a su hermano pequeño, DALL.E Mini.

Desde versiones de la rana Gustavo en distintos contextos cinematográficos, reinterpretaciones de obras clásicas como la chica de la perla, de Vermeer o un “autorretrato” del propio Dalí como cyborg, son solo algunos ejemplos de la creatividad del tándem entre hombre y máquina.

Fuente: UpenAl. Imagenes generadas a partir del texto vibrant portralt paintina of Salvador Dall mi a robotic halt face

Aunque cabría preguntarse dónde se encuentra el punto de equilibrio entre la creatividad del humano y la de la máquina. Por un lado, el usuario únicamente tiene que proporcionar una descripción de lo que quiere crear, una premisa, sin la cual sería imposible que el modelo generase ningún resultado.

Sin embargo, por otro lado, únicamente con esa premisa y sin la capacidad generativa del modelo, seríamos incapaces de ir más allá de esa descripción y producir obra alguna.

¿Es entonces la máquina, la red neuronal, el verdadero agente creador? Eso nos convertiría a nosotros, los usuarios, en una suerte de inspiración, de musa; esa “chispa inicial” necesaria en el proceso creativo, y abriría el debate sobre si las máquinas pueden o no ser creativas.

Atendiendo a la definición de la RAE, es indudable que DALL.E 2 tienen la facultad de crear, pero, ¿debemos entender el proceso creativo únicamente como una caja negra que ante unos inputs, ya sean extrínsecos o intrínsecos, es capaz de generar un output? O por el contrario, ¿sería imprescindible la consciencia de ser partícipe en el proceso de creación para que podamos hablar de creatividad?

El controvertido concepto de consciencia, ha sido recientemente objeto de disputa en la comunidad IA, ante las no menos controvertidas declaraciones de Blake Lemoine, ex-ingeniero de Google y que aseguraba, tras haber mantenido conversaciones con el modelo LaMDA (acrónimo de Modelo de Lenguaje para aplicaciones de diálogo), que éste tenía consciencia de sí mismo.

Más allá de la dicotomía entre consciencia o truco, de si los usuarios nos hemos convertido únicamente en ese susurro del proceso creativo, o de si este último existe o no; vamos a adentrarnos en “la mente del artista” para entender un poco mejor cómo lo hace.

Fuente: paper original Hierarchical Text-Conditional Image Generation with CLIP Latents

En un enfoque clásico, para ser capaces de generar una imagen a partir del texto, necesitaríamos en primer lugar traducirlo a una representación numérica o embedding y luego hacer una transformación inversa, decodificando dicho embedding para obtener la imagen. Estos dos pasos los harían dos modelos diferenciados, llamados encoder y decoder, respectivamente.

OpenAI parte de ese enfoque clásico y va un paso más alla, por un lado con un modelo a priori que transforma el texto en una representación vectorial de la imagen, y por otro lado, con un decoder con difusión, capaz de traducirlo y crear imágenes coherentes respecto al texto.

Partiendo de un conjunto de datos compuesto por imágenes y su pie de foto, el objetivo de CLIP es el aprender una representación conjunta de los textos y las imágenes, en el mismo espacio latente. Este acercamiento del embedding obtenido con el codificador del texto y el obtenido con el codificador de la imagen a nivel matemático, nos permite paulatinamente alcanzar una traducción directa entre el texto, esa “inspiración” que el usuario proporciona al modelo, y la representación numérica de la imagen obtenida.

DALL.E y otros modelos análogos de reciente aparición, como Parti de Google, son capaces de generar nuevas imágenes de un realismo y coherencia visual no vistos hasta ahora, y que van a convertirse en contribuyentes clave en campos como la fotografía, la arquitectura o el diseño, pudiendo combinar distintas premisas textuales e interpolando esos embeddings intermedios para obtener nuevos resultados.

¿Dónde reside entonces, la parte creativa de DALL.E 2? Fijándonos en el esquema del entrenamiento, necesitamos transformar tanto el texto como la imagen en esas representaciones latentes que conviven en un mismo espacio matemático. Este segundo encoder, el de la imagen, es donde se encuentra la “mente del artista”.

Durante el entrenamiento, se parte de ese encoder, invirtiéndolo para obtener un decoder por difusión, cuya misión es la opuesta, pasar de la representación matemática, a una imagen generada por el modelo.

Este decoder tiene la cualidad de ser no-determinista, ante un mismo input, no va a proporcionar siempre el mismo output.

Fuente: https://arxiv.org/pdf/2204.06125.pdf

Tomando una perspectiva probabilista, DALL.E se compone de dos bloques. Un primer bloque, determinista y que proporciona un embedding z dada una premisa textual y, y un segundo bloque, no determinista y que es el que tomando ese embedding de la imagen, y opcionalmente, la codificación del texto, genera imágenes siempre similares entre ellas para la misma premisa, pero nunca idénticas.

Fuente: Open AI

El no determinismo se hace patente al tomar esa representación numérica de la imagen y alimentar al decoder en sucesivos pasos, como podemos ver en la imagen con el cuadro de La persistencia de la memoria de Dalí o el logo de la propia Open AI, en el que encontramos similitudes entre todas las propuestas, pero nunca la misma repetida dos veces.

Esto abre la puerta a reinterpretaciones de cualquier obra artística, y promueve la reflexión de qué habría pasado si el estado de ánimo o las circunstancias del artista hubiesen sido marginalmente diferentes durante el proceso de creación.

Del mismo modo, también abre la ventana al debate de si esa creatividad, subyacente en el decoder, es tal. Desde un punto de vista, el resultado puede tomar infinitos valores dentro de la distribución estadística, pero por el otro lado, se encuentra restringida dentro de los límites y propiedades de la misma. ¿Se trata entonces de creatividad por las infinitas posibilidades que nos brinda, o por el contrario puede interpretarse como una ausencia de la misma, al carecer del carácter reivindicativo de los movimientos artísticos?

Independientemente de dónde nos posicionemos en este debate, y una vez entendidas las pinceladas matemáticas que constituyen el genio creativo de DALL.E, animo a todos los lectores a participar de esta simbiosis artística entre el usuario y el modelo, plasmando visualmente lo que por el momento solo habita en su imaginación.

Firmado: Francisco Espiga Fernández (Profesor ESIC y experto en IA)

Si estás interesado en el campo de la Inteligencia Artificial, ¡no dudes en consultar el siguiente enlace !