THE FACT

Google acaba de presentar Veo 3, la tercera generación de su sistema de inteligencia artificial diseñado para producir vídeos completos a partir de descripciones textuales. A diferencia de las primeras herramientas de IA que sólo generaban imágenes estáticas o clips muy breves, Veo 3 integra texto, imagen, audio y narrativa en un solo flujo: basta con escribir una frase como “un tren atravesando un puente al amanecer” para obtener un clip de hasta un minuto en calidad Full HD, con movimientos de cámara, efectos de luz, banda sonora y diálogo sincronizado con los labios de personajes virtuales.

Detrás de este avance están varios componentes clave. Primero, su arquitectura multimodal entiende la semántica del texto y las imágenes de referencia, lo que le permite organizar escenas con coherencia —personajes, escenarios y acciones encajan de forma continua—. Segundo, incorpora modelos de lenguaje (como Gemini 1.5) que sostienen un hilo narrativo: pueden seguir órdenes como “añade una atmósfera melancólica” o “muestra la reacción de la persona al sonido del tren”. Y tercero, su sistema de síntesis de voz genera diálogos realistas y los alinea perfectamente con los movimientos labiales, algo que los competidores aún no dominan.

La propuesta de Google sitúa a Veo 3 por delante de otras soluciones disponibles:

Generación de audio: Veo 3 añade música de fondo, efectos ambientales y voces generadas que hablan con entonación y sincronización precisas.
Coherencia narrativa: A lo largo de varios cortes, el modelo respeta la continuidad espacial y emocional, evitando saltos abruptos o escenas inconexas.
Calidad visual: Con iluminación dinámica y profundidad de campo, los clips alcanzan un nivel casi cinematográfico en 1080p.

En pruebas iniciales, creadores de contenido, agencias de marketing y docentes han valorado la capacidad de Veo 3 para producir prototipos de vídeo en segundos, sin necesidad de cámaras, actores ni estudios de sonido. Por ejemplo, un equipo de formación universitaria pudo generar un módulo audiovisual sobre la historia de la aviación, con recreaciones de vuelos y narración sincronizada, todo con un simple guion.

No obstante, Google mantiene el acceso a Veo 3 en fase experimental. Actualmente solo está disponible en EE. UU. para suscriptores de Gemini Premium y para clientes de Vertex AI en proyectos piloto. También se está probando su integración en YouTube Shorts y Workspace, pero aún no hay fecha para un despliegue global.

Entre las limitaciones reconocidas están la imposibilidad de generar vídeos de más de un minuto, fallos puntuales en escenas complejas y la necesidad de seguir afinando la naturalidad de las voces. Además, Google ha subrayado su compromiso con medidas éticas y de seguridad para evitar usos maliciosos, como la creación de deepfakes no consentidos.

Veo 3: El gran salto de Google para generar vídeos narrativos con IA

56

5 June, 2025