A partir de una imagen estática, el sistema genera secuencias de vídeo en las que la cámara puede desplazarse hacia delante, atrás, izquierda, derecha o girar para ofrecer la sensación de estar recorriendo un mundo virtual.

La IA que crea mundos virtuales

El resultado, como es lógico, no son modelos 3D completos como los que utilizan los videojuegos tradicionales, pero se acercan bastante. La IA crea vídeos en dos dimensiones que mantienen una consistencia espacial realista, de manera que los objetos se mantienen en su sitio mientras la perspectiva cambia al mover la cámara. Cada creación produce 49 fotogramas, es decir, unos dos segundos de vídeo, aunque es posible enlazar varios clips para obtener secuencias de varios minutos. Durante ese tiempo, la ilusión de estar dentro de un espacio 3D se mantiene con bastante solidez, hasta el punto de que muchos usuarios podrían confundirlo con el motor gráfico de un videojuego.

El funcionamiento de Voyager combina color y profundidad en tiempo real. Cada vez que genera un fotograma, crea simultáneamente la información de profundidad, lo que permite reconstruir escenas en forma de nubes de puntos 3D. A esto se suma un sistema de “memoria” denominado world cache, que guarda los puntos creados en fotogramas anteriores y los reproyecta desde nuevos ángulos de cámara. De esta forma, la IA se asegura de que los siguientes fotogramas mantengan la coherencia con los anteriores, evitando que los objetos cambien de posición o tamaño de forma absurda, algo que ocurre con otros generadores de vídeo basados en IA.

Para entrenar el modelo, Tencent utilizó más de 100.000 clips de vídeo, tanto grabaciones reales como escenas creadas en Unreal Engine. Básicamente, enseñaron a la IA a imitar cómo se mueve una cámara en entornos tridimensionales de videojuegos, incorporando un bucle de retroalimentación geométrica que le permite mantener consistencia durante varios minutos. Sin embargo, este sistema no es perfecto. Cuando la cámara intenta realizar giros de 360 grados o secuencias demasiado largas, los errores acumulados terminan rompiendo la coherencia y el resultado pierde realismo.

Otro gran problema es el consumo de recursos. Para funcionar con una resolución de 540p, Voyager necesita al menos 60 GB de memoria gráfica, y se recomienda contar con 80 GB para obtener mejores resultados. Esto limita enormemente el acceso a usuarios comunes, ya que requiere estaciones de trabajo con múltiples GPUs de gama alta. Aun así, Tencent ha publicado los pesos del modelo en Hugging Face, junto con el código necesario para ejecutarlo tanto en una como en varias tarjetas gráficas, lo que abre la puerta a que investigadores y desarrolladores experimenten con él.

Haciendo-ejercicio-Supernatural-realidad-virtual-Oculus

Las comparaciones con otros proyectos similares no se han hecho esperar. Google presentó Genie 3 en agosto, un sistema capaz de generar mundos interactivos en 720p a partir de texto, aunque no está disponible para el público. Dynamics Lab, por su parte, trabaja con Mirage 2, que permite a cualquier usuario cargar imágenes en un navegador y transformarlas en entornos jugables. Voyager, en cambio, apunta más al terreno de la producción audiovisual y la reconstrucción 3D que al entretenimiento directo, aunque las posibilidades creativas son evidentes.

Según las pruebas publicadas, Voyager ha obtenido resultados muy prometedores en el benchmark WorldScore desarrollado por la Universidad de Stanford, superando a otros modelos como WonderWorld y CogVideoX-I2V en aspectos como la coherencia espacial y la consistencia de estilo. Sin embargo, su control de cámara todavía queda por detrás de algunos competidores, lo que demuestra que todavía estamos en una de las primeras fases de esta tecnología.

El lanzamiento de Voyager forma parte del ecosistema Hunyuan de Tencent, que también incluye modelos para generar objetos 3D a partir de texto o vídeos de alta calidad. La compañía china parece decidida a ocupar un papel destacado en el futuro de la inteligencia artificial aplicada a la creación de mundos digitales, aunque con limitaciones de licencia que impiden su uso en la Unión Europea, Reino Unido y Corea del Sur.

 

Fuente: ars TECHNICA | adslzone