Inteligencia Artificial

Google da un paso adelante en la generación de video por IA

El nuevo sistema permite producir videos de alta calidad introduciendo texto, imágenes o referencias de estilo

Resultados de muestra generados por Lumiere, incluida la conversión de texto a video (primera fila), imagen a video (segunda fila) y referencia de estilo y pintura de video (tercera fila).

Resultados de muestra generados por Lumiere, incluida la conversión de texto a video (primera fila), imagen a video (segunda fila) y referencia de estilo y pintura de video (tercera fila). / Crédito: arXiv (2024). DOI: 10.48550/arxiv.2401.12945

Pablo Javier Piacente

Google ha anunciado el desarrollo de Lumiere, un generador de texto a video de próxima generación basado en Inteligencia Artificial (IA). El sistema permite producir un video realista y editarlo introduciendo oraciones cortas a modo de instrucciones, con imágenes de alta calidad. Supera con creces los resultados obtenidos actualmente con otros sistemas similares.

Un equipo de científicos de Google Research ha desarrollado un generador de texto a video basado en Inteligencia Artificial (IA), que logra resultados sorprendentes y supone un paso adelante en la producción de contenidos audiovisuales gestionados por IA. Los investigadores describen los alcances del nuevo sistema, denominado Lumiere, en un estudio publicado recientemente en arXiv.

Videos con IA de gran realismo

Bautizado con ese nombre en honor a los hermanos Lumiere, pioneros de la fotografía, el innovador sistema desarrollado por el gigante tecnológico de Mountain View permite a los usuarios escribir una oración sencilla y obtener prácticamente al instante un video completamente terminado, que refleja lo indicado en el texto.

Sin embargo, como esto ya es posible con otras herramientas actualmente disponibles, la mayor ventaja de Lumiere y su principal aporte es la calidad de imagen que se aprecia en los videos. De esta forma, el nuevo generador representa un avance clave en el desarrollo de video mediante IA, al crear resultados mucho más realistas y atractivos.

Según un artículo publicado en Tech Xplore y la web del proyecto Lumiere, el sistema permite producir videos mediante tres alternativas: introduciendo instrucciones en forma de texto, incorporando imágenes a partir de las cuales se produzca un video o dando referencias de estilo o pictóricas, como por ejemplo dibujos.

Video de demostración de Lumiere, sus funcionalidades y características. Créditos: Inbar Mosseri / YouTube.

Un avance que no tiene límites

Aunque sabemos que en los últimos años la Inteligencia Artificial ha avanzado notablemente y ha pasado del laboratorio a la vida cotidiana, fue en 2023 cuando ese progreso tomó mayor notoriedad pública mediante la irrupción de ChatGPT y otros modelos de lenguaje de gran tamaño o LLM. Estos sistemas de aprendizaje automático permiten producir textos mediante la realización de preguntas sencillas, al incorporar y sintetizar amplios volúmenes de información que obtienen de la web.

En ese sentido, los LLM de texto se vieron rápidamente acompañados por generadores de imágenes, que permiten producir una imagen nueva brindando una simple referencia textual, también gracias al gran poder de los sistemas de IA para tomar y procesar la información existente en la web. Como era lógico, la producción de imágenes fijas no fue la última escala en este camino ascendente de la IA: llegaron poco después los generadores de video.

Sin embargo, el nuevo sistema de Google parece llevar esta experiencia un paso más allá, no solo por la calidad visual de las producciones sino por el agregado de funciones adicionales, como permitir a los usuarios editar un video existente resaltando una parte del mismo y escribiendo instrucciones. También permite realizar pequeñas producciones cinematográficas, en las que un usuario puede resaltar parte o la totalidad de una imagen fija y animarla.

Aunque Google no ha especificado aún si piensa lanzar o distribuir Lumiere al público en general, todo dependerá de cuestiones legales: antes de estar disponible, la empresa deberá idear un mecanismo para que los videos producidos no violen los derechos de autor de las imágenes que se utilicen, o no generen litigios o conflictos.

Referencia

Lumiere: A Space-Time Diffusion Model for Video Generation. Omer Bar-Tal et al. ArXiv (2024). DOI:https://doi.org/10.48550/arXiv.2401.12945