La startup de inteligencia artificial Anthropic, respaldada por Google y cientos de millones en capital de riesgo (y quizás pronto cientos de millones más), anunció hoy la última versión de su tecnología GenAI, Claude. Y la compañía afirma que el chatbot de IA supera al GPT-4 de OpenAI en términos de rendimiento.
Claude 3, como se llama el nuevo GenAI de Anthropic, es una familia de modelos: Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus, siendo Opus el más potente. Todos muestran “capacidades mejoradas” en análisis y pronósticos, según afirma Anthropic, así como un rendimiento mejorado en benchmarks específicos en comparación con modelos como ChatGPT y GPT-4, y el Gemini 1.0 Ultra de Google (pero no el Gemini 1.5 Pro).
Notablemente, Claude 3 es el primer GenAI multimodal de Anthropic, lo que significa que puede analizar texto e imágenes, similar a algunas versiones de GPT-4 y Gemini. Claude 3 puede procesar fotos, gráficos, diagramas técnicos, extrayendo información de PDF, presentaciones y otros tipos de documentos.
En un paso más allá de algunos rivales de GenAI, Claude 3 puede analizar múltiples imágenes en una sola solicitud (hasta un máximo de 20). Esto le permite comparar y contrastar imágenes, señala Anthropic.
Pero hay límites en el procesamiento de imágenes de Claude 3.
Anthropic ha desactivado los modelos para identificar personas, sin duda consciente de las implicaciones éticas y legales. Y la compañía admite que Claude 3 tiende a cometer errores con imágenes de “baja calidad” (menos de 200 píxeles) y tiene dificultades con tareas que involucran razonamiento espacial (por ejemplo, leer la esfera de un reloj analógico) y conteo de objetos (Claude 3 no puede dar recuentos exactos de objetos en imágenes).
Claude 3 tampoco generará obras de arte. Los modelos se limitan a analizar imágenes, al menos por ahora.
Ya sea procesando texto o imágenes, Anthropic afirma que los clientes pueden esperar que Claude 3 siga mejor las instrucciones de múltiples pasos, produzca resultados estructurados en formatos como JSON y converse en idiomas distintos al inglés en comparación con sus predecesores. Claude 3 también debería rechazar menos a menudo responder preguntas gracias a una “comprensión más matizada de las solicitudes”, según Anthropic. Y pronto, los modelos citarán la fuente de sus respuestas a las preguntas para que los usuarios puedan verificarlas.
“Claude 3 tiende a generar respuestas más expresivas y atractivas”, escribe Anthropic en un artículo de soporte. “[Es] más fácil de provocar y guiar en comparación con nuestros modelos anteriores. Los usuarios deberían encontrar que pueden lograr los resultados deseados con indicaciones más cortas y concisas”.
Algunas de esas mejoras provienen del contexto ampliado de Claude 3.
El contexto de un modelo, o ventana de contexto, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar la salida. Los modelos con ventanas de contexto pequeñas tienden a “olvidar” el contenido de conversaciones incluso muy recientes, lo que los lleva a desviarse del tema, a menudo de manera problemática. Como ventaja adicional, los modelos con un contexto amplio pueden comprender mejor el flujo narrativo de los datos que reciben y generar respuestas más ricas contextualmente (al menos en teoría).
Anthropic dice que Claude 3 inicialmente admitirá una ventana de contexto de 200,000 tokens, equivalente a unas 150,000 palabras, con clientes selectos obteniendo una ventana de contexto de hasta 1 millón de tokens (~700,000 palabras). Esto está a la par con el nuevo modelo GenAI de Google, el mencionado Gemini 1.5 Pro, que también ofrece hasta una ventana de contexto de un millón de tokens.
Ahora, solo porque Claude 3 es una mejora respecto a lo que vino antes, no significa que sea perfecto.
En un documento técnico, Anthropic admite que Claude 3 no es inmune a los problemas que afectan a otros modelos de GenAI, como el sesgo y las alucinaciones (es decir, inventar cosas). A diferencia de algunos modelos de GenAI, Claude 3 no puede buscar en la web; los modelos solo pueden responder preguntas utilizando datos anteriores a agosto de 2023. Y aunque Claude es multilingüe, no es tan fluido en ciertos idiomas “de recursos limitados” en comparación con el inglés.
Pero Anthropic promete actualizaciones frecuentes para Claude 3 en los próximos meses.
No creemos que la inteligencia del modelo esté cerca de sus límites, y planeamos lanzar [mejoras] a la familia de modelos Claude 3 en los próximos meses
escribe la compañía en una publicación de blog
Opus y Sonnet ya están disponibles en la web y a través de la consola de desarrollo y API de Anthropic, la plataforma Bedrock de Amazon y Vertex AI de Google. Haiku seguirá más adelante este año.
Aquí está el desglose de precios:
- Opus: $15 por millón de tokens de entrada, $75 por millón de tokens de salida
- Sonnet: $3 por millón de tokens de entrada, $15 por millón de tokens de salida
- Haiku: $0.25 por millón de tokens de entrada, $1.25 por millón de tokens de salida
Así que eso es Claude 3. ¿Pero cuál es la visión general de todo esto?
Bueno, como hemos informado anteriormente, la ambición de Anthropic es crear un algoritmo de próxima generación para “autoenseñanza de IA”. Dicho algoritmo podría usarse para construir asistentes virtuales que puedan responder correos electrónicos, realizar investigaciones y generar arte, libros y más, algo de lo que ya hemos tenido un adelanto con GPT-4 y otros modelos de lenguaje grandes.
Anthropic insinúa esto en la mencionada publicación de blog, diciendo que planea agregar características a Claude 3 que mejoren sus capacidades desde el principio al permitir que Claude interactúe con otros sistemas, codifique “interactivamente” y ofrezca “capacidades agentes avanzadas”.
Esa última parte hace pensar en las ambiciones informadas de OpenAI de construir un agente de software para automatizar tareas complejas, como transferir datos de un documento a una hoja de cálculo o completar automáticamente informes de gastos e ingresarlos en software de contabilidad. OpenAI ya ofrece una API que permite a los desarrolladores integrar “experiencias similares a agentes” en sus aplicaciones, y Anthropic, al parecer, tiene la intención de ofrecer funcionalidades comparables.
¿Podremos ver un generador de imágenes de Anthropic próximamente? Me sorprendería, francamente. Los generadores de imágenes son objeto de mucha controversia en estos días, principalmente por razones relacionadas con derechos de autor y sesgo. Google se vio obligado recientemente a desactivar su generador de imágenes después de inyectar diversidad en imágenes con un desprecio ridículo por el contexto histórico. Y varios proveedores de generadores de imágenes están en batallas legales con artistas que los acusan de lucrar con su trabajo al entrenar GenAI con ese trabajo sin proporcionar compensación ni siquiera crédito.
Estoy ansioso por ver la evolución de la técnica de Anthropic para entrenar GenAI, “IA constitucional”, que la compañía afirma hace que el comportamiento de sus GenAI sea más fácil de entender, más predecible y más fácil de ajustar según sea necesario. La IA constitucional tiene como objetivo proporcionar una forma de alinear la IA con las intenciones humanas, haciendo que los modelos respondan a preguntas y realicen tareas utilizando un conjunto simple de principios rectores. Por ejemplo, para Claude 3, Anthropic dijo que agregó un principio, informado por retroalimentación de la multitud, que instruye a los modelos a ser comprensivos y accesibles para personas con discapacidades.
Sea cual sea el objetivo final de Anthropic, están aquí para quedarse. Según un pitch deck filtrado en mayo del año pasado, la compañía tiene como objetivo recaudar hasta $5 mil millones en los próximos 12 meses aproximadamente, lo que podría ser la base que necesita para seguir siendo competitiva con OpenAI. (Entrenar modelos no es barato, después de todo). Ya está en camino, con $2 mil millones y $4 mil millones en capital comprometido y promesas de Google y Amazon, respectivamente, y más de mil millones combinados de otros inversores.
Vía | Anthropic claims its new AI chatbot models beat OpenAI’s GPT-4 | TechCrunch