Google saca pecho en IA multimedia: lanza su nueva tanda de modelos para crear imagen, audio... y hasta vídeo con sonido integrado
Publicado el 20/05/2025 por Diario Tecnología Artículo original
En la conferencia Google I/O 2025, la inteligencia artificial (IA) no solo ha sido protagonista como herramienta de productividad o como complemento a las búsquedas web, sino también como herramienta creativa dirigida a un público amplio, incluyendo usuarios profesionales. De hecho, Google ha presentado toda una nueva generación de modelos generativos capaces de crear imágenes de alta calidad, vídeos con sonido realista e incluso composiciones musicales interactivas.
Con estos modelos, Google deja claro su intento de liderar el sector de la IA generativa, con una propuesta de creatividad colaborativa... entre humanos e IA:
Imagen 4: precisión visual y diseño tipográfico impecable

Imagen 4 es la evolución del conocido modelo de generación de imágenes de Google. Está disponible en la app de Gemini, en herramientas como Google Slides, Docs, Vids y en el entorno empresarial Vertex AI., y sus principales novedades incluyen:
- Calidad fotográfica con detalles impresionantes: desde telas intrincadas hasta gotas de agua o pelaje de animales.
- Resoluciones de hasta 2K, ideales para impresión o presentaciones profesionales.
- Capacidad tipográfica avanzada, que permite generar textos correctamente escritos dentro de las imágenes, útil para pósters, cómics o tarjetas.
- Velocidad mejorada: se anunció también una variante rápida que es hasta 10 veces más veloz que Imagen 3.


- Antecedentes: El modelo Imagen fue introducido por Google en 2022 como un competidor directo de DALL·E y otros generadores de imágenes a partir de texto. Desde sus primeras versiones, Imagen destacó por su fidelidad semántica a las descripciones y por su nitidez visual. En Imagen 2 y 3, se fortalecieron aspectos como el realismo de las texturas y la coherencia compositiva, lo que permitió su integración en productos como Google Slides. Con Imagen 4, el modelo da un salto notable en resolución, detalles finos y habilidades tipográficas, posicionándose como una herramienta lista para el diseño profesional y la impresión de alta calidad.
Veo 3: vídeo con sonido integrado
Google ha presentado Veo 3, su nuevo modelo de generación de vídeo, que marca un hito al ser el primer modelo de IA de Google que genera vídeo con audio nativo. Entre sus capacidades más destacadas:
- Generación audiovisual completa: los usuarios pueden crear escenas con ruidos ambientales, diálogos y música de fondo a partir de simples descripciones en lenguaje natural.
- Física realista y sincronización labial precisa.
- Comprensión narrativa: Veo entiende y representa visualmente historias sugeridas por el usuario.
Veo 3 está disponible en el plan Google AI Ultra y se integra con la nueva herramienta creativa Flow, así como con Vertex AI para empresas.
También se han lanzado nuevas funciones en Veo 2, como:
- Referencias visuales (personajes, estilos, objetos).
- Controles de cámara: rotaciones, zooms, travellings.
- Outpainting para expandir la escena.
- Añadir o eliminar objetos con coherencia espacial.
- Antecedentes: El proyecto Veo comenzó como un esfuerzo para generar clips de vídeo breves y sin sonido a partir de texto, compitiendo con modelos como Make-A-Video de Meta o Runway. Veo 2 trajo mejoras en continuidad, control de cámara y consistencia entre escenas, permitiendo a cineastas experimentar con narrativas visuales. Sin embargo, estos vídeos carecían de un componente esencial: el sonido.
Con Veo 3, Google rompe esta barrera al integrar audio nativo, permitiendo por primera vez la creación de escenas completas con ruidos ambientales, diálogos y música, lo que lo convierte en el modelo más avanzado en su categoría hasta la fecha.
Flow: cine generado por IA
Flow es la nueva herramienta de Google para filmmaking con IA, diseñada para narradores visuales. Combina el poder de Veo, Imagen y Gemini para permitir:
- Crear clips cinematográficos a partir de prompts en lenguaje natural.
- Controlar elementos como el guion, la puesta en escena, los personajes, el estilo visual y la música.
- Usar activos personalizados o generarlos dentro del mismo entorno.
- Acceder a recursos como Flow TV, donde se pueden explorar clips creados por otros, ver sus prompts y aprender nuevas técnicas.
Flow está disponible para los suscriptores de Google AI Pro y Ultra en EE. UU.
- Antecedentes: Flow nace como la evolución de VideoFX, una iniciativa experimental lanzada en Google Labs en 2024 para explorar la creación de videos a partir de prompts textuales. Aunque inicialmente era una simple interfaz para interactuar con modelos como Veo, el potencial creativo observado entre cineastas y artistas llevó a Google a desarrollar Flow como una plataforma integral. Su versión actual se ha convertido en un entorno completo de producción narrativa, combinando los modelos más potentes de Google (Veo, Imagen y Gemini) y ofreciendo herramientas de storyboard y edición cinemática, todo impulsado por IA.
Lyria 2: música generada (y controlada, y personalizada...)
En el ámbito musical, Google presenta Lyria 2, un modelo de composición avanzada, y su entorno de pruebas Music AI Sandbox, ahora disponible para músicos y productores. Sus capacidades incluyen:
- Composición musical a partir de prompts.
- Exploración interactiva con Lyria RealTime, que permite crear música en tiempo real y controlar dinámicamente los resultados.
- Integración con YouTube Shorts y Vertex AI para creadores y empresas.

Estas herramientas fueron desarrolladas en colaboración con artistas y productores para asegurar que la IA actúe como colaboradora creativa, no como reemplazo.
- Antecedentes: El modelo musical Lyria surgió en 2023 como parte de la iniciativa MusicLM de Google, diseñada para transformar texto en música, manteniendo estructuras armónicas coherentes. Lyria 1 permitió experimentar con melodías, géneros y tempo, aunque con limitaciones en control y personalización. Con el lanzamiento de Lyria 2 y el entorno Music AI Sandbox, Google abrió un abanico de posibilidades para músicos profesionales: herramientas de composición, mezcla, interpretación en tiempo real (Lyria RealTime) y colaboración en plataformas como YouTube Shorts.
Imagen | Marcos Merino mediante IA
En Genbeta |
utm_campaign=20_May_2025"> Marcos Merino .