Nvidia sorprende con nueva IA que programa en segundos, explica memes, analiza texto y mucho más
Nvidia ha presentado su nuevo modelo de inteligencia artificial, NVLM 1.0, capaz de generar código en cuestión de segundos, responder consultas de cultura general e incluso explicar memes. Este modelo tiene la habilidad de comprender imágenes, gráficos y escritura a mano.
Según la compañía, NVLM 1.0 está diseñado para competir con los modelos de OpenAI y Meta. Nvidia destacó: “Presentamos NVLM 1.0, una familia de modelos de lenguaje grande multimodales (LLM) de clase de frontera que logran resultados de vanguardia en tareas de lenguaje-visión, rivalizando con los modelos propietarios líderes (por ejemplo, GPT-4) y los modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2)”.
Cómo es el nuevo modelo de IA de Nvidia
La nueva familia de modelos de inteligencia artificial de Nvidia, denominada NVLM 1.0, tiene la capacidad de interpretar imágenes y ofrecer respuestas precisas. Un ejemplo proporcionado por la compañía muestra cómo el modelo responde a una foto de Jensen Huang, su CEO, cuando un usuario pregunta quién es la persona en la imagen.
El modelo también es capaz de interpretar imágenes de apuntes escritos a mano. En una demostración, se utilizó una imagen de un texto manuscrito que contenía un conjunto de parámetros de un código, acompañado de la instrucción: “Escribe código basado en el pseudocódigo proporcionado”.
Además, se presentó cómo NVLM 1.0 era capaz de comprender memes, como uno que muestra un tigre y un gato, para luego explicárselo al usuario.
La empresa explica el caso del meme de la siguiente manera:
“Por ejemplo, nuestro modelo puede entender el humor detrás del meme “abstracto vs. papel” en el ejemplo (a) al realizar reconocimiento óptico de caracteres (OCR) para reconocer las etiquetas de texto para cada imagen y usar el razonamiento para comprender por qué yuxtaponer “lo abstracto” (etiquetado con un lince de aspecto feroz) y “el papel” (etiquetado con un gato doméstico) es gracioso”.
“El modelo NVLM-1.0-D 72B demuestra una buena capacidad de seguimiento de instrucciones. También puede generar una descripción detallada y de muy alta calidad de la imagen proporcionada”, puntualizan la compañía.
Nvidia ha subrayado que su modelo NVLM 1.0 ha sido entrenado utilizando datos seleccionados con sumo cuidado. Esto implica que se han elegido meticulosamente los datos empleados para su entrenamiento, con el fin de garantizar que sean de alta calidad y relevantes para una variedad de tareas.
Asimismo, se ha proporcionado información detallada sobre los conjuntos de datos multimodales (que incluyen texto, imágenes y otros tipos de información) utilizados tanto en la fase de preentrenamiento como en el ajuste fino supervisado, donde se optimizan las habilidades del modelo.
Los resultados del equipo de Nvidia indican que, para obtener un modelo de alta calidad, es más importante contar con conjuntos de datos variados y bien diseñados que con una cantidad masiva de datos.
Según Nvidia, la calidad y diversidad de los datos es un factor más determinante que la cantidad (escala) de datos, sin importar qué tipo de arquitectura se utilice para el modelo. Esto sugiere que modelos como NVLM 1.0 pueden lograr un rendimiento superior cuando se entrenan con datos altamente selectivos y variados.
“Nuestro NVLM-D-1.0-72B demuestra capacidades versátiles en varias tareas multimodales al utilizar conjuntamente OCR, razonamiento, localización, sentido común, conocimiento del mundo y capacidad de codificación”, apuntan
Cómo acceder a la IA de Nvidia
De acuerdo con Nvidia, liderada por Jensen Huang, la compañía planea compartir los pesos del modelo y abrir el código de NVLM 1.0 para la comunidad, con el fin de impulsar la investigación en el campo de la inteligencia artificial.
Sin embargo, hasta el momento, el código de NVLM 1.0 aún no ha sido liberado. En la página oficial del proyecto, Nvidia ha señalado que esta apertura sucederá próximamente.