Inteligencia Artificial

Google abre para los desarrolladores Gemini 1.5 Pro, un nuevo modelo de su IA para procesar grandes cantidades de información

Esta nueva opción es capaz de procesar, de una sola vez, una hora de vídeo, once horas de audio, 30.000 líneas de código o más de 700.000 palabras
Google redobla su apuesta por la inteligencia artificial: Bard se convierte en Gemini y lanza su primera aplicación móvil

Gemini 1.5 Pro, puede procesar una hora de vídeo

Agencias / Susana C. Gómez 15 Febrero, 2024 - 21:47h

Google sigue ampliando su proyecto de inteligencia artificial, Gemini, con un nuevo modelo destinado en esta ocasión a desarrolladores (lo ha abierto por ahora a un selecto grupo de ellos) y con el que aspira a recortar distancias con el por ahora mucho más popular ChatGPT de OpenAI (que cuenta con el aval de Microsoft).

Esta nueva propuesta, Gemini 1.5 Pro, puede procesar grandes cantidades de información de una sola vez, incluida una hora de vídeo, once horas de audio, 30.000 líneas de código o más de 700.000 palabras.

"Hace unos años memorizar u obtener el contexto de cientos de palabras era bastante difícil e incluso si miramos a la década de 1950, cuando Shannon (el matemático que inventó la teoría de la información) soñaba con modelos de lenguaje, se estaba analizando dos palabras de contexto", dijo a la prensa Oriol Vinyals, vicepresidente de investigación de Google DeepMind y director ejecutivo de Gemini.

Ejemplos de sus habilidades

Para ejemplificar las capacidades de Gemini 1.5 Pro, Vinyals mostró -usando un vídeo pregrabado- que el modelo era capaz de analizar un texto de 402 páginas de transcripciones del Apolo 11 -la primera misión en lograr que un ser humano llegase a la luna- y encontrar tres citas graciosas.

Gemini 1.5 Pro procesa más de 400 páginas de transcripciones del Apolo 11

Además de con texto, los usuarios podrán interactuar con el modelo con fotos o dibujos. En el ejemplo del vídeo de presentación, el usuario le dio a Gemini 1.5 Pro un dibujo muy sencillo de una bota pisando el suelo y le pidió: "¿Qué momento es este? responde con una cita exacta". La respuesta de la máquina fue la famosa cita del astronauta Neil A. Armstrong: "Un pequeño paso para el hombre pero un gran salto para la humanidad".

Vinyals mostró otros ejemplos parecidos, uno de los cuales usaba como base una película muda de 45 minutos de Buster Keaton.

Con respecto a la programación, en un comunicado la empresa señala: "Puede realizar tareas de resolución de problemas más relevantes en bloques de código más largos. Cuando se le presenta un mensaje con más de 100.000 líneas de código, puede razonar mejor entre ejemplos, sugerir modificaciones útiles y dar explicaciones sobre cómo funcionan las diferentes partes del código".

Gemini 1.5 Pro analiza más de 100.000 líneas de código

"En cierto modo, funciona de manera muy similar a como lo hace nuestro cerebro", explicó Vinyals.

Gemini 1.5 funciona a un nivel parecido al 1.0 Ultra, el modelo de Google más sofisticado hasta la fecha.

Posibilidades para desarrolladores

En un comunicado del director ejecutivo de Google y Alphabet, Sundar Pichai, se indica que Gemini 1.5 Pro ayudará a los desarrolladores a crear modelos y aplicaciones mucho más útiles. "Nos complace ofrecer una vista previa limitada de esta función experimental a desarrolladores y clientes empresariales", recalca Pichai.

A partir de hoy algunos desarrolladores y clientes de la nube podrán comenzar a construir con 1.0 Ultra, con la interfaz de programación de aplicaciones (API) Gemini en AI Studio y Vertex AI.

En lo referente a las llamadas alucinaciones -respuestas bien estructuradas pero incorrectas- Vinyals señala que sigue siendo un problema de la IA en general en el que se sigue trabajando.

Hace una semana, Google anunció que unificaba sus esfuerzos en torno a la IA bajo una única nomenclatura, Gemini. Un cambio que llegaba acompañado de una aplicación móvil para Android y su llegada a iOS dentro de la app de Google para los productos de Apple.

Además, la compañía lanzó Gemini Advanced, una versión de pago que permite resolver tareas avanzadas, ya sea programación, razonamiento lógico o colaboración creativa.