El boom de la Inteligencia Artificial General (IAG) para crear imágenes a partir de textos

Mercedes Oriol Vico    25 octubre, 2022
Riesgos y oportunidades de la IAG

El célebre fotógrafo Philippe Halsman, conocido por el estilo de la ‘saltología’ –jumpologyque inventó con sus instantáneas de celebridades en los años 40-50 del siglo XX, entre las que capturó saltando a Marilyn Monroe, Dean Martin y Jerry Lewis, Grace Kelly, Edward Steichen o al mismo Richard Nixon, llegó a la locura de su expresión con «Dalí Atomicus».

En la experimentación que llevó a cabo con uno de los máximos representantes del surrealismo español, Salvador Dalí, aparecen por los aires la obra del maestro «Leda Atómica», un caballete, una silla y un taburete, agua, tres gatos y el propio Dalí. Parece que necesitaron 28 intentos para conseguir el resultado final. No sabemos si los gatos fueron los tres mismos en los lanzamientos reiterados o fueron cambiando a los mininos por accidentalidad laboral, pero lo que sí es seguro es que volaron por los aires conformando una de las fotografías más surrealistas que existen… hasta ahora.

La apertura al público general hace seis meses de Dall-e2, el nuevo sistema de Inteligencia Artificial General (IAG) que permite crear imágenes y arte realistas a partir de una descripción de texto en lenguaje natural, ha revolucionado la creatividad del siglo XXI.

El vaticinio de Salvador Dalí

Aunque lo situó en 2001, el excéntrico de Figueres –en quien se inspira parte del nombre de la plataforma Dall-e, junto con el robot de Pixar Wall-e- vaticinó en 1956 la fusión del arte y la ciencia en la revista estadounidense Amazing Stories, siendo “el arte, el reflejo de la completa discontinuidad de la materia; y la ciencia, la prueba”.

Según Dalí, “artistas, escultores y pintores de la época podrían retratar esa discontinuidad en un nuevo tipo de armonía explosiva” y el secreto de esta armonía se podría ver en la radiación cósmica que, a sus ojos, reunía belleza y terror. Lo que para el catalán se representaba en la naturaleza de los átomos de la coliflor y el cuerno del rinoceronte.

Imágenes creadas con Dall-e2
Imágenes creadas con Dall-e2, a partir del texto: Wall-e and Salvador Dalí with the future in their hands, in a large ballroom, abstract oil painting

Con el desarrollo de la Inteligencia Artificial General (AIG), se ha logrado una fase embrionaria de esa “armonía explosiva” de creatividad con su principal exponente en las plataformas de inteligencia artificial que, por suerte para otros gatos, estarán exentas de peligro.

Otro avance dentro de la Inteligencia Artificial General

Dall-e nació en enero de 2021 en el laboratorio de investigación de OpenAI, una entidad con sede en San Francisco que Sam Altman, Elon Musk y Peter Thiel, entre otros multimillonarios, pusieron en marcha en 2015, con el compromiso de donar mil millones de dólares entre todos para el avance de la Inteligencia Artificial General (IAG).

Lo que comenzó como organización sin ánimo de lucro, se convirtió con la marcha de Musk en 2018, en empresa con ánimo de lucro (OpenAI LP), abriéndose a la financiación de firmas como Microsoft, la fundación benéfica de Reid Hoffman y Khosla Ventures.

La tecnología en la que se basa Dall-e es una versión de 12 mil millones de parámetros de GPT-3, el generador de texto de IA capaz de generar artículos de noticias o historias que parecen escritas por el ser humano, que OpenAI presentó en el verano de 2020, entrenada para generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares texto-imagen.

Desde entonces, ha habido una proliferación de plataformas y aplicaciones, como Craiyon –anteriormente, Dall-e Mini-, Wombo Art, Midjourney, Stable Diffusion, Photosonic, DreamStudio, Hotpot, Make a video de Meta o DrawAnyone (uno de los últimos estrenos), que replican, especializan o intentan mejorar la idea de la red neuronal de OpenAI, siendo hoy utilizadas por cada vez más artistas, ilustradores, diseñadores, fotógrafos, periodistas, arquitectos, ingenieros, educadores o personas interesadas en jugar con la tecnología y conocer nuevas innovaciones.

Imágenes con DrawAnyone
Imágenes creadas con DrawAnyone, a partir de cinco fotografías de la autora, con la especificación de Cyberpunk

¿Un beneficio para toda la humanidad?

Y es que sus fundadores presumen de que su misión es “garantizar que la inteligencia artificial general beneficie a toda la humanidad”, entendiendo por IAG “sistemas altamente autónomos que superan a los humanos en la mayoría de los trabajos económicamente valiosos”.

Con la misma velocidad que han explosionado estos sistemas, el posible mal uso, los riesgos y la seguridad de su aplicación también han empezado a preocupar. De ahí que desde OpenAI defiendan su compromiso y el valor que ya están aportando a terceros: “Intentaremos construir directamente una IAG segura y beneficiosa, pero también consideraremos cumplida nuestra misión si nuestro trabajo ayuda a otros a conseguir este resultado”.

Inicialmente, la beta de Dall-E se lanzó con la ya famosa “silla de aguacate” para 200 artistas, investigadores y usuarios de confianza (había lista de espera), que ayudaron con su experimentación de la herramienta y con sus aportaciones de mejora. Después de que OpenAI abriese Dall-E2 al público general, más de 1,5 millones de usuarios crean más de dos millones de imágenes al día (y estas cifras son de septiembre de 2021).

Potenciales riesgos de la IAG

Efectivamente, aunque los gatos estarán a salvo, enseguida se identificaron peligros latentes que preocupan a la compañía. De hecho, un mes después de lanzar la beta de Dalle-e, con el fin de mitigar riesgos potenciales de la herramienta, OpenAI invitó a un equipo de 25 investigadores externos para probar fallos, mejoras y potenciar la transparencia en el desarrollo de la IAG.

Las principales amenazas giraban en torno a la generación de fotos realistas de personas que no existen, representación en exceso de estereotipos de raciales y de género, la posibilidad del uso de la plataforma para el acoso, la intimidación o la desinformación, el plagio de artistas o la creación de deepfakes y de vídeos trucados. Y aunque OpenAI ha efectuado filtros para su mejora, la compañía ha optado por una interpretación más flexible, fundamentando su estrategia en confiar en el uso que haga la sociedad de esta herramienta, para compartir un desarrollo conjunto.

Otro de los miedos que aparecen cuando surgen tecnologías como Dall-e, Jukebox o GPT-3 es el impacto que pueden tener en la destrucción de empleos. A este respecto, Altman comenta que “cada revolución tecnológica produce un cambio en los puestos de trabajo y siempre encontramos nuevos”.

Sin duda, el caso de Dall-e2 y plataformas similares conlleva un nuevo reto laboral manifiesto para cualquier persona que haya probado estas herramientas, que es el de los redactores de prompts, quienes destacarán por describir las más acertadas indicaciones textuales que hay que introducir en las herramientas para llegar a dar con un óptimo resultado para las empresas.

Oportunidades e inspiración de nuevas ideas

Sin embargo, el actual director ejecutivo de OpenAI, Sam Altman, cree firmemente que las repercusiones positivas de la IAG serán mucho mayores que las negativas: “Si la inteligencia artificial, incluso en su actual estado muy larvario, puede hacer que nos enfrentemos a una especie de inspiración de nuevas ideas, eso ya es bastante impresionante”.

Imágenes creadas con Dall-e2
Imágenes creadas con Dall-e2, a partir del texto: Woman with a head full of clouds dances with the mother of technology, stained glass window

Las oportunidades que ofrecen estas plataformas de IA para creación de imágenes y vídeos son infinitas, tanto en trabajos relacionados con el diseño, el arte, la fotografía, la arquitectura y la decoración, la comunicación y el marketing, la educación, los juegos, la ingeniería civil, industrial, informática…, como en negocios de moda, editoriales, o incluso en el sector del tatuaje.

De cualquier forma, esta explosión de creatividad tecnológica, que irá perfeccionándose a lo largo de este siglo, es imparable y ofrece a los creativos de cualquier ámbito una paleta de posibilidades impensables, siempre y cuando estén dispuestos a afrontar los beneficios de la tecnología.

¿Te unes a la revolución creativa?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *