El siguiente hito para las IAs que generan vídeo era hacerlos con audio. Google lo ha conseguido con Veo 3

Publicado el 20/05/2025 por Diario Tecnología
Artículo original

El siguiente hito para las IAs que generan vídeo era hacerlos con audio. Google lo ha conseguido con Veo 3

Gran día para Google. Estamos en pleno I/O 2025, el evento de software más importante del año para la compañía americana. Curiosamente, Android está siendo uno de los nombres menos sonados: este año lo único que importa es la IA.

Y, relacionado con la IA, Google lleva tiempo trabajando en un modelo que permite generar vídeo a través de texto. Ese modelo es Veo, y en su nueva actualización es capaz de generar dichos vídeos... con audio.

Veo 3. Google tiene tres ahora niveles para su inteligencia artificial generativa de vídeo. Veo 1, Veo 2 y el nuevo Veo 3. Sí, son nombres mucho más fáciles respecto a lo que nos tiene acostumbrados. Veo 3 es el modelo más potente, capaz de generar vídeo 4K con compresión cinematográfica avanzada. En este Google I/O gana una capacidad clave: la generación de vídeo con audio.

De sonidos ambientales a diálogos. Google va con todo con Veo 3. Este modelo no solo tiene mayor calidad respecto a Veo 2: es el único de Google capaz de generar vídeos con audio. Por ejemplo, si en el prompt detallamos que queremos una escena urbana, será capaz de recrear algunos de los sonidos correspondientes a la misma (personas andando, tráfico, bullicio, etc.).

Google va más allá, y promete ser capaz de crear incluso diálogos entre personajes. Esta es una de las barreras definitivas para que el vídeo a texto se convierta prácticamente en una función de ciencia-ficción. Con Veo 3 será posible hacerlo todo.

Mejoras en Veo 2. Aunque Veo 3 es el absoluto protagonista, Veo 2 se actualiza con nuevas funciones. Entre ellas, estrena nuevos controles de cámara mucho más precisos para movimientos de travelling y zoom, opciones de outpainting para ampliar el encuadre (para pasar el vídeo de vertical a horizontal o viceversa), así como la posibilidad de añadir o borrar elementos del vídeo.

Llega Flow. Relacionado con Veo, Imagen y Gemini llega Flow, la nueva herramienta de Google para crear vídeos cinematográficos mediante IA. Es un nuevo entorno de trabajo para poder dar rienda suelta a nuestras creaciones con Veo: un editor de vídeo con el que podremos crear tanto con Imagen como con Veo.

Además de funcionar como editor, tendrá cierta función social. A través de Flow podremos acceder a Flow TV, un feed en el que veremos contenido, canales y creadores que estén generando vídeos con Veo.

Adelantando a Open AI. Los creadores de ChatGPT sorprendieron al mundo con Sora, su inteligencia artificial para generar vídeo desde un prompt. ¿El problema? Al menos, en el momento en el que escribimos estas líneas, no es capaz de generar vídeo.

En diciembre de 2024 Google ya adelantó por la derecha a Sora mostrando las capacidades de Veo 2, que cuadruplicaba la resolución de salida de vídeo respecto al modelo de Open AI. También permitía crear vídeos más duraderos, y una "comprensión" de la física espectacular, algo que marca la diferencia a la hora de crear un vídeo natural.

Sus rivales. Los generadores de vídeo de rivales como Runway, Luma AI o Pika Labs permiten agregar audio externo, pero en ningún caso generan sonido en el momento de entregar el vídeo final.

Google acaba de dar un puñetazo en la mesa con Veo 3, manteniendo la primera posición de carrera y complicando aún más las cosas a gigantes como Open AI.

Por el momento, estas funciones estarán disponibles para suscriptores de Gemini Ultra en Estados Unidos a través de la app Gemini y Flow, así como para empresas a través de Vertex AI.

Imagen | Google

En Xataka | 14 herramientas para crear imágenes con IA gratis

utm_campaign=20_May_2025"> Ricardo Aguilar .