Un elefante verde caminando por Nueva York: todo es posible gracias a SORA
Los últimos dos años generaron un ecosistema prolífico en el que fueron apareciendo distintas herramientas con Inteligencia Artificial: cada una recoge el guante de su antecesora, para subir aún más la apuesta y la vara.
Hace poco se presentó Sora, la nueva herramienta de Open AI para crear videos de un minuto de duración a partir de instrucciones de texto, conocidas como “prompts”.
¿Qué es eso? Un cuadro de texto en donde un usuario interactúa con la Inteligencia Artificial.
La famosa herramienta de Open AI, ChatGPT, básicamente es eso: una caja de texto en donde el usuario ingresa, por ejemplo, una pregunta y la herramienta brinda una respuesta como si fuera un humano. Además, permite mantener una conversación muy coherente, es decir, puede generar un diálogo entre el usuario y la máquina.
Luego de ChatGPT, OpenAI irrumpió con DALL-E cuya única diferencia radica en que la salida del prompt que le da el usuario a la IA es una imagen. Fácilmente uno puede indicar que quiere una imagen de un elefante verde y DALL-E generará, sin más, la imagen deseada.
Si hoy Sora puede generar un video de un elefante verde en Manhattan es porque durante su entrenamiento recibió muchos videos de elefantes en donde, luego de “aprender” el aspecto de este animal, adquirió la capacidad de inventar uno nuevo y diferente a todos los que conocía
Actualmente, OpenAI está trabajando en dar un paso más, con la misma mecánica que tienen ChatGPT y DALL-E: una inteligencia que podrá generar videos de alta calidad y de un minuto de duración, a la cual podemos pedirle que cree un video de nuestro elefante verde caminando por Manhattan o algo más llamativo, por ejemplo, como Messi con la camiseta de Brasil. Esta nueva herramienta, que aún no está disponible para el público general, se llama Sora.
¿Cómo funciona esta tecnología? ¿Cómo es posible que, a partir de un texto, se pueda generar un video o una imagen de algo que nunca existió?
Al igual que el resto de las IA, lo que le da soporte a esta herramienta es lo que normalmente se llama “modelo”: una gran base de datos que contiene información necesaria para cumplir su objetivo. En el caso de Sora, y volviendo a nuestro elefante verde, el modelo contiene información precisa de cómo generar un video de algo que se parece mucho a un elefante de la vida real, de cómo camina y también tiene información de cómo es Manhattan. Con toda esa información puede recombinarse y generar un elefante totalmente nuevo (y verde) que camina por New York.
¿Cómo se entrena un modelo?
No es ni más ni menos que a partir de darle información clara y concreta sobre un determinado tópico y que, así, se vaya alimentando y ganando en información. Para ello se utilizan técnicas, como Machine Learning, por ejemplo, que permiten automatizar y escalar la ingesta y aprendizaje de los datos.
OpenAI debe comprender y tener en cuenta que, si Sora fuera liberada sin tener en cuenta su uso responsable, puede resultar algo muy negativo para la sociedad en su conjunto
Para el caso de Sora, a diferencia de ChatGPT que fue entrenado solo con texto, o DALL-E con imágenes, aquí el entrenamiento es con videos. Es decir, si hoy Sora puede generar un video de un elefante verde en Manhattan es porque durante su entrenamiento recibió muchos videos de elefantes en donde, luego de “aprender” el aspecto de este animal, adquirió la capacidad de inventar uno nuevo y diferente a todos los que conocía. Es decir, el elefante creado por Sora no va a ser igual a ninguno de los que tenga en su modelo de entrenamiento: será una recombinación de todos los que conoce, uno totalmente nuevo. Esa capacidad de recombinar información que ya conoce y generar algo nuevo, es el motivo por el cual siempre está asociada la palabra Generativa a las IAs.
En una reciente entrevista con el Washington Post, la CTO de Sora, Mira Muratti, dejó una respuesta que preocupa, al ser consultada por la fuente de los videos que se habían usado para entrenar a la herramienta. Primero dudó en responder, pero luego dijo que eran videos que se encontraban públicos en la web.
Aunque Sora aún no está disponible para el público, lo primero que preocupa de la entrevista, es el aparente desconocimiento sobre el origen de los videos de sus entrenamientos. Es posible que esto sea consecuencia de la incomodidad que generaría la posible verdad: Sora usaría videos públicos de internet como una de sus fuentes de entrenamiento y, si así fuera, quiere decir que puede tomar un video público de una familia en Instagram, alterando claramente el propósito para el cual ese video fue publicado. Esto lleva a cuestionar si el hecho de que el video sea publicado en internet, le da autoridad de OpenAI a tomarlo y usarlo.
El elefante creado por Sora no va a ser igual a ninguno de los que tenga en su modelo de entrenamiento: será una recombinación de todos los que conoce, uno totalmente nuevo
Durante mucho tiempo estuvimos acostumbrados a que las imágenes que estábamos viendo en el monitor o un teléfono podían ser “fakes” o “photoshopeadas”. Pero si bien la tecnología avanzó muy rápido en los últimos años, la sociedad en su conjunto está entrenada, de una u otra manera, para saber que la imagen que está viendo puede ser una imagen falsa.
Sora propone un nuevo desafío: volver a dudar sobre lo que vemos, pero ahora en un video. No quiere decir que aún no existiesen los medios para hacer un video apócrifo, simplemente que esta herramienta pondrá esto en la mano de cualquiera que pague por el servicio si finalmente SORA saliera al público en general. Algo que todavía es incierto.
Otro desafío importante será cómo reconocer fehacientemente un video generado con IA. Muratti en su entrevista aseguró que están trabajando sobre marcas de agua o mecanismos similares. Sin embargo, la marca de agua parece débil y fácil de burlar; no parece ser un mecanismo robusto y tan vital para que cualquiera sepa que está viendo un video generado por Sora. OpenAI debe comprender y tener en cuenta que, si Sora fuera liberada sin tener en cuenta su uso responsable, puede resultar algo muy negativo para la sociedad en su conjunto.
No quedan dudas de que Sora es y será una gran herramienta. Es algo que sucederá, aunque represente riesgos, como todo lo relacionado con IA.
Parece bueno que la tecnología en general, y la IA en particular, se usen revolucionariamente en muchísimas cuestiones benéficas para el mundo: lo que no se puede ignorar es que las empresas que generan este tipo de tecnología tienen que hacerlo responsablemente.
El autor es Solution Architect de Ingenia