INTELIGENCIA ARTIFICIAL

De ChatGPT a Sora: OpenAI difumina los límites entre realidad y ficción con una IA para vídeos

Sam Altman anuncia que la compañía ha desarrollado una herramienta revolucionaria que aún no llegará a manos del público por las dudas sobre sus peligros

¿Qué es Sora? La nueva herramienta de ChatGPT

PI STUDIO

Una mujer camina por el centro de Tokio, rodeada de peatones. Lleva una chaqueta negra, un vestido rojo, gafas de sol y un bolso mientras cruza por una calle donde los charcos de una lluvia reciente reflejan decenas de luces de neón con letras japonesas. La cámara se acerca a un primer plano que muestra de cerca su rostro, en un vídeo de una calidad que roza lo cinematográfico. Y, sin embargo, nada de eso es real.

Todo ello, un minuto de una realista escena, ha sido generado por inteligencia artificial. Concretamente, por Sora, el nuevo modelo de la empresa estadounidense OpenAI, que catapultó la adopción masiva de la IA con ChatGPT y el generador de imágenes DALL-E.

La herramienta acepta instrucciones en texto y las convierte en vídeos. Estos pueden incluir "un movimiento de cámara complejo y múltiples personajes con emociones vibrantes", calculando también "cómo existen los objetos en el mundo físico", según la compañía.

La empresa ha presentado decenas de vídeos para mostrar las capacidades de la herramienta, desde escenas que podrían ser reales pero no lo son (un todoterreno recorriendo un camino, el despertar de un gato y su dueña o una ciudad costera italiana) hasta otras completamente inventadas que en algunos casos rivalizan con los efectos especiales del cine: un dron que se convierte en mariposa cuando cruza el Coliseo de Roma, un astronauta con un gorro de lana rojo en una película de aventura espacial o un grupo de mamuts que corren hacia la cámara levantando una polvareda de nieve.

Pero además de todas las posibilidades de Sora, esta tecnología genera una serie de peligros y dudas, por lo que OpenAI únicamente la ha compartido con un pequeño grupo de académicos e investigadores externos cuya tarea será detectar, y prevenir, los peligros del sistema, que podría llevar a un nuevo nivel la generación de 'deepfakes' en pleno debate sobre la regulación de la IA.

Un astronauta con un gorro de lana rojo en el espacio, parte de un vídeo generado por la IA Sora, de OpenAI.

Un astronauta con un gorro de lana rojo en el espacio, parte de un vídeo generado por la IA Sora, de OpenAI. / OPENAI

Cómo funciona Sora

OpenAI define a Sora como un "modelo de difusión". ¿Qué quiere decir esto? En resumen, se entrena a la inteligencia artificial mediante millones de datos de imágenes o vídeos para ser capaz de añadir ruido a una imagen, distorsionarla y luego revertir ese proceso. De esta manera se entrena a una red neuronal para que entienda lo que le pide el usuario, genere una primera imagen distorsionada y trabaje sobre ella para eliminar el ruido y generar un cuadro nítido basado en la orden recibida.

En este caso, Sora emplea redes anteriores creadas sobre otras inteligencias artificiales de OpenAI, como GPT (texto) y DALL-E (imágenes). Al utilizar la base del generador de imágenes DALL-E 3, con subtítulos muy descriptivos para los datos visuales con los que se entrena la IA, la herramienta consigue seguir más fielmente las instrucciones a la hora de generar el vídeo.

Por eso no solo es capaz de crear un vídeo a partir de un texto. También puede tomar una imagen fija y generar un vídeo a partir de ella, animando el contenido "con precisión y atención a los pequeños detalles", o ampliar y rellenar los espacios que faltan en un vídeo ya existente.

La compañía admite que también tiene puntos débiles, por ejemplo a la hora de "simular con precisión la física de una escena compleja", detalles espaciales de una indicación (confundiendo derecha o izquierda) o con las relaciones de causa y efecto, como la marca en una galleta después de que una persona le dé un mordisco.

Los riesgos del vídeo generado por IA

Aunque se ha presentado por todo lo alto, Sora no estará disponible para los usuarios durante un tiempo. Crear un vídeo realista a partir de las instrucciones de un usuario, especialmente cuando los avances lo hagan completamente indistinguible de un vídeo real, causa una serie de problemas en cuanto la percepción de la realidad y a la generación de noticias falsas, estafas, chantajes o 'deepfakes'.

Por mucho que OpenAI se haya alejado de sus orígenes como organización sin ánimo de lucro para situarse entre las mayores 'startups' de Silicon Valley, la compañía no se puede permitir poner a la venta esta herramienta para que cualquiera la use. Ha anunciado que contará con expertos en desinformación, contenido que incite al odio y prejuicios de las IA para probar el modelo, simulando todo tipo de situaciones, e intentar mitigar algunos de estos riesgos.

Por ejemplo, siguiendo las medidas de DALL-E 3, el clasificador de textos comprobará y rechazará las propuestas de los usuarios que incluyan "violencia extrema, contenido sexual, imágenes que incitan al odio, imágenes de famosos o la propiedad intelectual de terceros". También se analizará cada fotograma de cada vídeo generado para comprobar que cumple con estos criterios antes de mostrárselo al usuario final. Además, prevé una serie de herramientas como incluir metadatos en los vídeos que avisen a los sistemas de detección de que un contenido ha sido generado por IA.

Esta dicotomía entre los saltos tecnológicos en la búsqueda de la AGI (Inteligencia Artificial General) y los efectos que pueden tener en la sociedad quedan patentes en la explicación de los motivos de OpenAI para restringir Sora: "No podemos predecir todas las formas beneficiosas en que la gente utilizará nuestra tecnología, ni todas las formas en que abusará de ella".