Adobe mejora su modelo Firefly de inteligencia artificial

Firefly, la familia de modelos de inteligencia artificial generativa de Adobe, no tiene la mejor reputación entre los creativos.

El modelo de generación de imágenes Firefly, en particular, ha sido criticado por ser decepcionante y defectuoso en comparación con Midjourney, DALL-E 3 de OpenAI y otros rivales, con una tendencia a distorsionar extremidades y paisajes y no captar los matices en las indicaciones. Pero Adobe está tratando de enderezar el rumbo con su modelo de tercera generación, Firefly Image 3, que se lanza esta semana durante la conferencia Max London de la empresa.

El modelo, ahora disponible en Photoshop (beta) y la aplicación web Firefly de Adobe, produce imágenes más “realistas” que sus predecesores (Image 1 e Image 2), gracias a su capacidad para entender indicaciones más largas y complejas, así como escenas y mejoras en iluminación y generación de texto. Debería representar con mayor precisión elementos como tipografía, iconografía, imágenes raster y arte lineal, dice Adobe, y es “significativamente” más hábil para representar multitudes densas y personas con “características detalladas” y “una variedad de estados de ánimo y expresiones”.

Por lo que vale, en mis breves pruebas no científicas, Image 3 parece ser un paso adelante respecto a Image 2.

No pude probar Image 3 yo mismo. Pero las relaciones públicas de Adobe enviaron algunas salidas e indicaciones del modelo, y logré ejecutar esas mismas indicaciones a través de Image 2 en la web para obtener muestras y compararlas con las salidas de Image 3. (Hay que tener en cuenta que las salidas de Image 3 podrían haber sido seleccionadas cuidadosamente).

Noten la iluminación en este primer plano de Image 3 en comparación con el que está debajo, de Image 2:

La salida de Image 3 se ve más detallada y realista a mis ojos, con sombras y contraste que están en gran parte ausentes en la muestra de Image 2.

Aquí hay un conjunto de imágenes que muestra la comprensión de escenas de Image 3 en acción:

Noten que la muestra de Image 2 es bastante básica en comparación con la salida de Image 3 en términos de nivel de detalle y expresividad general. Hay algunas imperfecciones en la camisa del sujeto en la muestra de Image 3 (alrededor del área de la cintura), pero la pose es más compleja que la del sujeto de Image 2. (Y la ropa de Image 2 también está un poco mal).

Algunas de las mejoras de Image 3 sin duda pueden rastrearse hasta un conjunto de datos de entrenamiento más grande y diverso.

Al igual que Image 2 e Image 1, Image 3 se entrena con contenido subido a Adobe Stock, la biblioteca de medios de regalías de Adobe, junto con contenido con licencia y de dominio público cuya protección de derechos de autor ha expirado. Adobe Stock crece constantemente, y en consecuencia, también lo hace el conjunto de datos de entrenamiento disponible.

En un esfuerzo por evitar demandas y posicionarse como una alternativa más “ética” a los proveedores de IA generativa que entrenan con imágenes indiscriminadamente (por ejemplo, OpenAI, Midjourney), Adobe tiene un programa para pagar a los contribuidores de Adobe Stock al conjunto de datos de entrenamiento. (Cabe señalar que los términos del programa son bastante opacos).

Recientemente un reporte de Bloomberg reveló que las imágenes generadas por IA en Adobe Stock no están excluidas de los datos de entrenamiento de los modelos de generación de imágenes de Firefly, lo cual es preocupante considerando que esas imágenes podrían contener material con derechos de autor reutilizado. Adobe ha defendido esta práctica, afirmando que las imágenes generadas por IA representan solo una pequeña porción de sus datos de entrenamiento y pasan por un proceso de moderación para asegurar que no muestren marcas registradas, personajes reconocibles o hagan referencia a nombres de artistas.

Por supuesto, ni los datos de entrenamiento más diversos y “éticamente” obtenidos, ni los filtros de contenido y otras salvaguardas garantizan una experiencia perfectamente libre de errores, como se vio cuando los usuarios generaron personas haciendo un gesto obsceno con Image 2. La verdadera prueba para Image 3 llegará cuando la comunidad pueda probarlo.

Nuevas funciones impulsadas por IA

Image 3 alimenta varias nuevas funciones en Photoshop además de la mejora de texto a imagen.

Un nuevo “motor de estilo” en Image 3, junto con un nuevo toggle de auto-estilización, permite al modelo generar una gama más amplia de colores, fondos y poses de sujetos. Estos se integran con Imagen de Referencia, una opción que permite a los usuarios condicionar el modelo en una imagen con los colores o tono que quieren que tenga su contenido generado futuro.

Tres nuevas herramientas generativas — Generar Fondo, Generar Similar y Mejorar Detalles — aprovechan Image 3 para realizar ediciones precisas en imágenes. La (auto-descriptiva) Generar Fondo reemplaza un fondo con uno generado que se fusiona con la imagen existente, mientras que Generar Similar ofrece variaciones de una parte seleccionada de una foto (por ejemplo, una persona u objeto). En cuanto a Mejorar Detalles, “afina” las imágenes para mejorar su nitidez y claridad.

Si estas funciones te suenan familiares, es porque han estado en beta en la aplicación web de Firefly durante al menos un mes (y en Midjourney mucho más tiempo). Esto marca su debut en Photoshop, en beta.

Hablando de la aplicación web, Adobe no está descuidando esta vía alternativa para sus herramientas de IA.

Para coincidir con el lanzamiento de Image 3, la aplicación web Firefly está obteniendo Referencia de Estructura y Referencia de Estilo, que Adobe presenta como nuevas formas de “avanzar en el control creativo”. (Ambas se anunciaron en marzo, pero ahora están ampliamente disponibles). Con Referencia de Estructura, los usuarios pueden generar nuevas imágenes que coincidan con la “estructura” de una imagen de referencia, por ejemplo, una vista frontal de un auto de carreras. Referencia de Estilo es esencialmente una transferencia de estilo con otro nombre, preservando el contenido de una imagen (p. ej., elefantes en la sabana africana) mientras imita el estilo (p. ej., boceto a lápiz) de una imagen objetivo.

Aquí está Referencia de Estructura en acción:

Y Referencia de Estilo:

Pregunté a Adobe si, con todas las actualizaciones, el precio de generación de imágenes de Firefly cambiaría. Actualmente, el plan premium más barato de Firefly cuesta $4.99 por mes, superando a la competencia como Midjourney ($10 por mes) y OpenAI (que restringe DALL-E 3 detrás de una suscripción de ChatGPT Plus de $20 por mes).

Adobe dijo que sus niveles actuales permanecerán por ahora, junto con su sistema de créditos generativos. También dijo que su política de indemnización, que establece que Adobe pagará los reclamos de derechos de autor relacionados con obras generadas en Firefly, no cambiará, ni tampoco su enfoque de aplicar marcas de agua al contenido generado por IA. Las Credenciales de Contenido (metadatos para identificar contenido generado por IA) continuarán adjuntándose automáticamente a todas las generaciones de imágenes de Firefly en la web y en Photoshop, ya sea generadas desde cero o editadas parcialmente usando funciones generativas.

Vía | Adobe claims its new image-generation model is its best yet | TechCrunch