Veo 3 es la IA más rompedora que hemos visto este año. Y lanza un mensaje a OpenAI: Google ya no reacciona, ahora innova

Publicado el 21/05/2025 por Diario Tecnología

Artículo original

El Google I/O 2025 estuvo marcado casi por completo por la inteligencia artificial y los importantes avances que está logrando la compañía. Además de las mejoras en los modelos de Gemini y la presentación de una nueva forma de buscar contenido en su motor de búsqueda, Google sorprendió con el lanzamiento de Veo 3, su nueva herramienta de generación de vídeo.

Veo 3 representa un salto cualitativo en el campo de la generación de vídeo por inteligencia artificial, dejando a OpenAI y su modelo Sora en una posición comprometida. Ya no hablamos de clips cortos con artefactos visuales. Ahora, se generan escenas complejas, con movimientos fluidos, una coherencia visual sobresaliente y un realismo que, en ocasiones, nos hace dudar si el vídeo ha sido grabado en la vida real o no.

Las creaciones compartidas hasta ahora muestran paisajes hiperrealistas con estilo natural, escenas con varios personajes interactuando entre sí y un nivel de detalle impresionante. Pero lo que realmente marca la diferencia es la integración nativa de audio de alta calidad. Mientras que Sora de OpenAI todavía se centra únicamente en la parte visual, Google ha ido un paso más allá, permitiendo generar bandas sonoras y hasta diálogos entre personajes que encajan perfectamente con las imágenes que se están viendo.

En Genbeta

Microsoft, OpenAI y Google están peleando a muerte por ganarse a los desarrolladores con IA. Y tienen nuevas armas para 'vibe coding'

Las redes sociales se han inundado de ejemplos que muestran este realismo. El usuario @fofrAI en X ha publicado varios vídeos sorprendentes. En uno de ellos, genera la escena de un comediante actuando en un pequeño local. El resultado no solo es convincente a nivel visual, sino que incluye el propio chiste contado con voz sintética, generando una escena que bien podría parecer grabada en la vida real.

En otra publicación, combinó generación de vídeo, texto en pantalla y audio en un resultado que ha dejado a muchos con la boca abierta.

Pulsa en la imagen para acceder a la publicación.

El nivel de perfección alcanzado por Veo 3 ha disparado el debate: ¿hasta qué punto seremos capaces de distinguir entre un vídeo generado por IA y uno grabado con una cámara? Un ejemplo que se ha viralizado es el de un caballo entrando en un bar y pidiendo un poco de heno al camarero. La escena, aunque absurda, resulta sorprendentemente realista.

Pulsa en la imagen para acceder a la publicación.

A partir de aquí, la imaginación es el único límite. Muchos usuarios ya están utilizando Veo 3 y Flow —otra herramienta presentada en el I/O— para combinar clips generados con el objetivo de crear pequeñas piezas cinematográficas. Y todo ello con una calidad notable y un coste muy bajo.

Pulsa en la imagen para acceder a la publicación.

Sora: una oportunidad perdida para OpenAI

Mientras tanto, OpenAI ha visto cómo el protagonismo de su modelo Sora, que en su momento generó una gran expectación, se ha ido diluyendo. Aunque sigue ofreciendo resultados visuales notables, la falta de integración de audio —al menos de forma nativa— ha marcado una clara desventaja frente a la propuesta de Google. Que Google haya sido la primera en lograr una IA de vídeo con audio integrado es, sin duda, un adelantamiento estratégico. Aunque de momento solo para Estados Unidos y en su modelo Ultra.

Hasta ahora, Google parecía ir a remolque en muchos aspectos clave del desarrollo de IA. Llegó meses tarde con Bard frente a ChatGPT, y ha ido sumando funciones con algo más de cautela. Pero con Veo 3 ha querido cambiar la narrativa: ya no es solo una competidora que sigue el ritmo, sino una que marca el paso.

Este avance supone un nuevo capítulo en la frenética carrera por liderar la inteligencia artificial. Empresas como Google, OpenAI, Microsoft o Anthropic compiten cada día por lanzar modelos más disruptivos y útiles. Y aunque aún queda mucho por explorar en el terreno de la IA generativa de vídeo, lo que Google ha mostrado con Veo 3 nos acerca a un futuro donde la línea entre lo real y lo sintético será cada vez más difícil de distinguir. Y lo ha hecho a una velocidad que, sinceramente, no esperábamos tan pronto.

En Genbeta | El 'vibe coding' hará que cada vez escribamos menos código. Así que los ingenieros de software tendrán una tarea titánica

utm_campaign=21_May_2025"> José Alberto Lizana .

Descarga la app de Diario Tecnología

Últimos posts

Contacto

info@diariotecnologia.es