Nuevo Llama 3.1 de Nvidia: rendimiento superior con menos recursos

octubre 18, 2024

| Tags: código abierto, Eficiencia, GPT-4o, Llama 3.1, Modelo de Lenguaje, Nemotron, Nvidia, parámetros, pruebas de alineación, rendimiento, respuesta coherente, tecnología de transformadores

El gigante del software Nvidia parece haber lanzado silenciosamente su último modelo de lenguaje grande (LLM) de código abierto y ajustado. Llamado Llama-3.1-Nemotron-70B-Instruct, este nuevo LLM supuestamente ha superado a gigantes de la industria como GPT-4o de OpenAI y Claude 3.5 Sonnet de Anthropic en algunos puntos de referencia clave.

El nuevo LLM, personalizado por Nvidia, es útil para generar respuestas a consultas generales y de programación. Su arquitectura avanzada y metodologías de entrenamiento lo han hecho más liviano en comparación con GPT-4o mini y los modelos Llama de Meta.

El modelo Llama 3.1 Nemotron-70B se basa en la arquitectura Llama 3.1, que utiliza tecnología de transformadores. Ofrece 70 mil millones de parámetros, lo que le permite procesar y generar respuestas coherentes y fluidas, similares a las humanas. En cuanto a rendimiento, ha logrado puntajes destacados en pruebas de alineación como Arena Hard (85.0), AlpacaEval 2 LC (57.6) y GPT-4-Turbo MT-Bench (8.98).

Con base en estos resultados, el nuevo modelo supera a GPT-4o y Claude 3.5 Sonnet en varios criterios. Cabe destacar que, a pesar de tener solo 70 mil millones de parámetros, el nuevo modelo es significativamente más pequeño en comparación con estos competidores. Nvidia ha liberado el código, el modelo de recompensas y el conjunto de datos de entrenamiento en Hugging Face, y puede probarse en vista previa en el sitio web oficial de la empresa.

Aunque Nvidia es conocida por su éxito en la fabricación de chips, también ha estado produciendo modelos poderosos. El nuevo modelo Nemotron es una prueba de que los modelos más pequeños y eficientes pueden competir e incluso superar a algunos de los líderes de la industria.

Vía | Nvidia launches Nemotron, a 70B model that outperforms GPT-4o and Claude 3.5 Sonnet | Technology News – The Indian Express

Deja un comentario Cancelar la respuesta