El pasado mes de marzo fue muy importante en el ámbito de la IA, y es que en la semana 11, comprendida entre el lunes 13, al viernes 17, se dieron 13 noticias muy importantes, que han pasado desapercibidas, pero que hace un año atrás hubiesen sido todos unos hitos importantes en este campo. Si el año pasado nos quedamos alucinados con las posibilidades de creación artística de los modelos de IA, en este 2023 parece que serán los modelos de lenguaje los que pongan contra las cuerdas al ser humano frente a las máquinas. Es de sobra conocido el potencial de ChatGPT, incluso de algunas páginas web que replican el modelo de lenguaje de OpenAI.
El lunes 13 de marzo pasado un equipo de investigadores de la Universidad de Stanford utilizaron el modelo de lenguaje de Meta, denominado LLaMa 7B, para iniciar el camino de su propio modelo, denominado Alpaca. El proceso de entrenamiento de su modelo Alpaca se inició introduciendo 175 pares de instrucciones/respuestas en ChatGPT. A través de LLaMa 7B, los responsables de la investigación comenzaron a generar respuestas, de veinte en veinte, de manera automatizada gracias a una API creada por la propia OpenAI.
Después de poco tiempo, y tras gastarse 500 dólares, se obtuvieron 52.000 ejemplos de conversaciones que serían utilizadas en el entrenamiento con LLaMa 7B, necesitó de 8 computadores de procesamiento en la nube y tres horas, además de 100 dólares extra. Recordemos que este tipo de entrenamientos son denominados Deep Learning y están basados en el esquema de las redes neuronales, y en toda IA hace falta un entrenamiento previo para su perfeccionamiento.
Alpaca aún está en desarrollo y hay muchas limitaciones que hay que atender, pero la gran novedad es que han logrado que esta Inteligencia Artificial funcione de manera local en un computador casero como la Apple Mac Book Air con un procesador M1. Sin duda alguna, un gran avance que además de simplificar y economizar y de llevar la IA a los computadores caseros, tambien contribuye a un menor consumo de energía.
El lunes 13 de marzo pasado Med-PaLM 2 un modelo de lenguaje grande (LLM) desarrollado por Google y DeepMind enfocado en el dominio médico, es capaz de; Responder preguntas médicas complejas basadas en evidencia científica, Generar resúmenes de artículos médicos o historiales clínicos, Sugerir diagnósticos o tratamientos posibles a partir de los síntomas o hallazgos del paciente.
Med-PaLM 2 es una mejora de la primera versión de Med-PaLM, que se lanzó en 2021. La nueva versión tiene una precisión del 85% en las tareas médicas, frente al 67% de la anterior. Además, Med-PaLM 2 incorpora más datos y fuentes médicas para entrenar el modelo, lo que le permite abarcar más especialidades y contextos. Aun es un proyecto de investigación en curso y no está disponible para el público general. Google afirma que su objetivo es mejorar la calidad y la accesibilidad de la atención médica mediante el uso de la inteligencia artificial, pero también reconoce los desafíos éticos y legales que implica este tipo de tecnología.
El pasado martes 14 de marzo de 2023 fue lanzado GPT-4, el nuevo modelo de lenguaje de inteligencia artificial de OpenAI, que sucede al GPT-3.5 que ha sido la base de ChatGPT. Es un tipo de inteligencia artificial generativa que utiliza algoritmos y texto predictivo para crear contenido nuevo basado en las instrucciones que se le den.
No sólo ha logrado mejorar la exactitud y ‘humanidad’ del modelo previo, que ya tenía a todo el mundo con la boca abierta, sino que aumenta el número de palabras que puede retener en memoria, mejorando de esta manera el contexto de las conversaciones, e incorpora nuevas funcionalidades como la de ‘ver’ e interpretar imágenes, lo que abre una gama de posibilidades infinita.
GPT-4 es, probablemente, la noticia más importante acontecida en esta semana histórica en el campo de la IA. A pesar de que aún no está abierto para todo el mundo en modo gratuito, se espera que llegue pronto y que la revolución sea enorme. Aunque para los usuarios de Bing con GPT, sí está disponible de manera gratuita, con ciertas limitaciones.
Google ha movido su ficha en la competición por la inteligencia artificial y ha comprado el 10 % de una empresa llamada Anthropic que fue fundada por ex-empleados de OpenAI, la creadora de ChatGPT, que estaba creando un software de aprendizaje y este miércoles 14 de marzo acaba de lanzar también su propio Chatbot, Claude. Lleva meses desarrollándose con el respaldo de grandes de Silicon Valley como Google, Notion, Quora y DuckDuckGo.
¿Qué le diferencia de ChatGPT y otros similares? Pues su enfoque en la fiabilidad: la compañía hace gala de que Claude es menos propenso a generar resultados “perjudiciales o no deseados” que sus competidores. Para ello se ha desarrollado mediante lo que la compañía ha denominado ‘IA constitucional’: un sistema para limitar la IA mediante ‘leyes’ de comportamiento.
La adquisición de Anthropic le ha costado a Google 300 millones de dólares. Además de esta unión, Anthropic también ha anunciado que Google Cloud es su «proveedor de nube preferido» y que ambas compañías han desarrollado sistemas informáticos de IA en conjunto. Claude es un rival potencial de ChatGPT. Claude aún no se encuentra disponible para el público general.
Esta IA ha sido creada por el equipo de Dario Amodei, exvicepresidente de investigación de OpenAI, y más exempleados de la compañía. Para diferenciarse de ChatGPT, Anthropic basa su trabajo en la construcción de «sistemas de IA confiables, interpretables y orientables» según indican en su sitio web, por ahora no se sabe qué uso se le dará a su IA.
Anthropic ha explicado que pronto la API de Claude estará disponible en dos versiones, Claude-v1, una variante de alto rendimiento y última generación, y Claude Instant, otra versión más asequible y rápida.
Es cierto tambien que más recientemente algunas personalidades importantes del área tecnológica, se han manifestado a favor de un mayor control a las nuevas IAs, mas específicamente a las nuevas versiones de ChatGPT, por pensar que este tipo de tecnologías no deberían ser liberadas tan fácilmente y con tan pocos controles, y tal vez tengan mucha razón, por lo que el chatbot ded Claude vendría en cierta medida a cumplir con este requerimiento muy reciente.
Hablemos ahora de ACT-1, un gran modelo de acción basado en el Transformer, ha sido entrenado para usar herramientas digitales como un navegador web. Fue creado por Adept, una startup de IA fundada por David Luan, quien fue vicepresidente de ingeniería de OpenAI y director de Google Research. La gran novedad de ACT-1 es que puede ejecutar solicitudes complejas del usuario e incluso coordinar acciones de múltiples aplicaciones.
Si Luan se dedicaba a desarrollar grandes modelos de lenguaje, ahora ha creado un ‘gran modelo de acción’, ACT-1, un asistente que se superpone al software del usuario y se especializa en ejecutar directamente solicitudes complejas del usuario e incluso coordinar acciones de múltiples aplicaciones.
Adept anunció una ronda de financiación de 20 millones de dólares en diciembre de 2022 y el pasado martes 14 de marzo alcanzó la suma de 350.000.000 $. Entre las compañías que han contribuido a esta ronda de financiación y que buscan poder beneficiarse de la tecnología de Adept se encuentran NVIDIA y Atlassian.
Este tipo de IA es capaz de interactuar con múltiples aplicaciones a la vez y realizar tareas complejas, que lo diferencia de los chatbots a los que estamos comenzando a familiarizarnos, este tipo de IA podría ser utilizado como un asistente personal muy capaz.
Ahora hablemos de una de mis IA favoritas, se trata de Midjourney. Y es que desde el pasado verano, el campo de la IA generativa de imágenes vive inmersa en una verdadera ‘carrera armamentística’ entre DALL-E 2, Midjourney y Stable Diffusion, por no mencionar los ya innumerables derivados de este último como consecuencia de su naturaleza open source. Pero definitivamente, con su última actualización del pasado miércoles 15 de marzo, Midjourney V5 se ha impuesto sobre todos sus rivales.
Es capaz de producir imágenes muy realistas a partir de textos descriptivos, usando una nueva arquitectura neural y herramientas de última generación. Según sus creadores, Midjourney V5 ha mejorado la calidad y el estilo de las imágenes, así como la generación de manos, que era uno de los puntos débiles de las versiones anteriores.
Con la nueva versión se pueden obtener; el doble de resolución, más calidad de imagen y mayor rango de estilos. Si aun no la conocen o no la han utilizado, se las recomiendo mucho, su gran ventaja es que está alojada en salas de Discord y allí se pueden ver las creaciones de otros usuarios a través de sus Prompt u ordenes que se le dan a Midjourney para la generación de imágenes, algo que ayuda mucho a entender como esta IA interpreta las solicitudes.
El miércoles 15 de marzo, pocas horas antes de que OpenAI sorprendiera al mundo de la tecnología con las capacidades de su nuevo modelo de lenguaje, GPT-4, su gran rival Google anunció su propio avance a la hora de llevar el poder de la inteligencia artificial a nuestro entorno de trabajo digital, con una serie de funcionalidades generativas para sus aplicaciones de Workspace, incluyendo a Google Docs, Google Sheets, Google Slides, GMail, Google Meet y Google Chat.
¿Y a qué nos referimos con ‘funcionalidades generativas’? Pues básicamente a ser capaces de generar texto mediante IA, de tal modo que nos permita, entre otras cosas de, convertir datos sin procesar en información o generar nuevas fórmulas en Sheets. También se traducirá en categorizaciones automáticas por contexto, o en mejoras en la función de autocompletado. Incluir imágenes, audio y vídeo generados mediante IA en nuestras presentaciones de Slides. Se acabó aquello de perder el tiempo buscando en bancos de imágenes y similares el complemento ideal para cada diapositiva. Tambien es capaz de recoger notas en directo o generar nuevos fondos en las aplicaciones de chat/videochat de Google.
En palabras de Tomás Kurian, responsable de Google Cloud: “De la misma manera que revolucionamos la colaboración en tiempo real con la coautoría en Docs hace 17 años, nos entusiasma volver a transformar la creación y la colaboración con Workspace”. “Estamos entusiasmados con el potencial de la IA generativa y las oportunidades que abrirá. […] Esten atentos a lo que está por venir en las próximas semanas y meses”.
Si te estás preguntando si puedes acceder ahora mismo a tu GMail y empezar a probar todo esto, lo siento mucho, pero debes moderar tu entusiasmo: no sólo son, como dijimos antes, funciones limitadas al servicio Workspace, sino que Google se va a tomar su implementación sin prisas y sin plazos concretos, según ellos dicen; “Lanzaremos estas nuevas experiencias a través de nuestro programa de probadores de confianza, comenzando por los hablantes de inglés en los Estados Unidos. A partir de ahí, iteraremos y perfeccionaremos las experiencias antes de ponerlas a disposición de los consumidores”.
Sin duda habrá que esperar a que este asistente inteligente se vaya desplegando y sea accesible a todos.
PyTorch es un framework de código abierto creado originalmente por Facebook para desarrollar proyectos de deep learning o aprendizaje profundo: es uno de los más usados del mercado, junto al Tensorflow de Google. Lo usan desde programadores principiantes de Python hasta multinacionales como Disney y Tesla en sus proyectos más innovadores como; reconocimiento facial o conducción autónoma, entre otros.
La nueva versión incorpora optimizaciones que facilitan el uso de CPUs, y no sólo GPUs, para hacer funcionar modelos de IA. Pero, sobre todo, aporta mejoras notables de rendimiento. Según Sylvain Gugger, de HuggingFace, “Con sólo agregar una línea de código, PyTorch 2.0 ofrece una aceleración entre 1.5x y 2.x en el entrenamiento de modelos basados en transformers”.
El mismo día también se lanzaron dos proyectos derivados de PyTorch: PyTorch Lightning 2.0, que es una extensión del primero que facilita el entrenamiento de modelos de IA, y Lightning Fabric, una nueva biblioteca que aumenta el control del desarrollador sobre el proceso de entrenamiento.
No todo el tiempo los avances son productos finales que podemos utilizar como el ChatGPT o el Midjourney, sino que son los elementos que forman parte de la ejecución de estas inteligencias artificiales, que las van haciendo más fiables, rápidas y eficientes, tal vez una noticia así no suene tan familiar, pero te seguro que cada avance que se da en cada uno de estos elementos es algo que si vas a percibir en la IA que estés utilizando.
En el caso de la gran M, La inteligencia artificial está avanzando a pasos agigantados al ser cada vez más capaz de poder comunicarse de una manera natural e incluso a través de imágenes como hemos visto con GPT-4. Microsoft anunció el pasado jueves 16 de marzo a Copilot, que como su propio nombre indica nos va a servir como un auténtico copiloto o ayudante en lo que es las tareas habituales que hacemos con los paquetes ofimáticos. Y es que de manera conjunta a Copilot, también se ha presentado Business Chat que funciona con LLM y todos tus datos personales.
Una de las grandes preguntas al ver estas novedades de Microsoft con respecto a la inteligencia artificial, es la utilidad real que puede llegar a tener. Y lo cierto es que durante toda la presentación hemos visto aplicaciones para el mundo laboral muy interesantes en lo que se refiere a los programas ofimáticos. En el caso de Word el ejemplo que se ha dado es la posibilidad de combinar dos archivos totalmente diferentes en un mismo documento editable, y todo con una única instrucción en la que se seleccionan ambas fuentes de información.
Pero además de esto, también va a tener la capacidad de crear un documento de cero. Y a diferencia de Google, esta tecnologia si está disponible desde ya para los subscriptores de su servicio Microsoft 365.
Tenemos tiempo abordando el protagonismo que está teniendo ChatGPT en los debates de las redes sociales chinas, pese a no estar oficialmente disponible para los usuarios del gigante asiático, muchos de ellos se hacían una pregunta muy importante: «¿Por qué ChatGPT no lo hemos creado nosotros primero?». Recordemos que hace sólo año y medio que Nicolas Chaillan, el primer Chief Software Officer del Pentágono, dimitió porque consideraba que EE. UU. ya había perdido la guerra de la inteligencia artificial frente a China.
La mejor situada de todas ellas era Baidu, ‘el Google chino’ que llevaba años invirtiendo en IA destinada a la conducción autónoma y que ya había lanzado varios modelos de lenguaje y hasta un equivalente de DALL-E 2 llamado ERNIE-ViLG. Aunque un movimiento de última hora de los reguladores chinos, destinado a aumentar su supervisión de cómo se implementaba la censura en los nuevos modelos de lenguaje, hizo temer por el calendario anunciado por Baidu, finalmente el pasado jueves 16 de marzo su chatbot Ernie fue presentado.
Sin embargo, tras el evento en el que Baidu presentó finalmente su chatbot, las acciones del gigante tecnológico chino cayeron un 10%. ¿El motivo? Sencillo: el mercado no vio con buenos ojos que todo lo que tuviera que ofrecer la compañía fuera un vídeo pregrabado. No cuando su principal rival occidental, OpenAI, había presentado el día antes su GPT-4, que se lanzó de forma inmediata para que los usuarios de pago de ChatGPT pudieran probarlo.
La compañía, propietaria del principal buscador de China, había estado afirmando en las semanas previas que Ernie sería poco menos que la clave para rehacer su catálogo de servicios online, permitiéndole integrar la inteligencia artificial generativa —por ejemplo— en su buscador. Sin embargo, después de que dos millones de personas asistieran online al evento de presentación de 45 minutos a través de WeChat, nadie fue capaz de hacerse una idea clara sobre si Ernie podría estar o no a la altura de ChatGPT.
«¿Eso es todo?» fue el comentario general en redes después finalizar el evento.
El estudio de las proteínas resulta básico para el desarrollo de nuevos medicamentos, pero por su peculiar forma tridimensional, también constituye un reto para la ciencia; uno en el que la IA está llamada a ocupar un papel central. El pasado jueves 16 de marzo, hubo dos grandes noticias al respecto, la primera de la mano de DeepMind, una subsidiaria de Google, que ha actualizado su modelo open source AlphaFold 2 con nuevos datos que mejorarán sus predicciones de proteínas de gran tamaño.
Meta ha publicó en Science los detalles sobre su modelo ESMFold, incluyendo que ya ha sido capaz de predecir la estructura de más de 740 millones de proteínas, de las cuales 225 millones son “predicciones de alta confianza”, más rápido aún que AlphaFold. De hecho, 130 millones de esas predicciones se realizaron en tan sólo 6 días. Estas IA ayudaran a elaborar medicamentos adecuados en un tiempo mucho menor. Sin duda un gran avance en la medicina.
El pasado viernes 17 de marzo se presentó una IA muy peculiar, se trata de FlutterFlow, una plataforma de desarrollo de aplicaciones móviles que permite a los usuarios crear apps nativas para iOS y Android sin necesidad de escribir código. FlutterFlow utiliza una interfaz visual de arrastrar y soltar para crear la interfaz de usuario y la lógica de la aplicación.
La plataforma también permite a los usuarios conectar su aplicación a una variedad de servicios en la nube, como bases de datos y servicios de autenticación. FlutterFlow es una herramienta útil para aquellos que desean crear aplicaciones móviles sin tener que aprender a programar.
FlutterFlow AI Gen, es el asistente basado en IA que ayuda a crear a dichas aplicaciones basándose únicamente en breves instrucciones de texto. Es un servicio de pago, de los mas cosotos que hay en la actualidad, y habrá que ver que tantas ventajas ofrece esta IA con respecto a otros servicios ya existentes que elaboran apps a partir de elementos, sin necesidad de crear código.
El modelo Alpaca 7B se pudo reducir el lunes 13 de marzo a ser ejecutado en un PC casero como una Mac Book con procesador M1, pero lo que se ha logrado en tan solo 5 días, es llevar esa ejecución a una modesta Raspberry Pi 4, llamado Alpaca LoRA, LoRA es una técnica de entrenamiento conocida como Adaptación de bajo rango.
Es un modelo Instruct de calidad similar a text-davinci-003 que puede ejecutarse en una Raspberry Pi (para investigación), y el código se extiende fácilmente a los modelos 13b, 30b y 65b. Sin ajuste de hiperparámetros, el modelo LoRA produce resultados comparables al modelo Stanford Alpaca. Es posible que con más ajustes se logre un mejor rendimientoa futuro.
Es increíble el avance en la disminución de recursos para su ejecución en tan solo 5 dias, para mí, gracias a la posibilidad de bajar su código y adaptarlo libremente a cualquier plataforma y contar con la colaboración en línea de diferentes desarrolladores.