SUNOMONOFILMS - Productora Audiovisual Barcelona 2024

View Original

La leyenda de Sant Jordi revisitada con la IA

La Leyenda se Sant Jordi según la IA. Una visión sobre el proceso.

En Productora Audiovisual Barcelona - Sunomono Films llevamos más de un año investigando y siguiendo todas las novedades que han ido surgiendo en IA con una mirada centrada en la posibilidades que ofrece para la producción audiovisual.

Creamos esta newsletter para compartir los aprendizajes, novedades y experiencias con el afán de aportar nuestro grano de arena y contribuir a la implementación de esta tecnología en nuestro sector. 

El reto 

Hartos de probar, de refinar los prompts, generar textos con ChatGPT y  esperar pegados a la pantalla para ver las imágenes de Midjourney, los videos con Stable Diffusion o de runway, decidimos crear una pieza que usara las principales técnicas que actualmente la IA ponen a nuestra disposición.

No hay mejor forma de acabar los proyectos internos que fijando una fecha de entrega ineludible. La leyenda de Sant Jordi era una buena oportunidad: Fecha límite y una marca conocida por todos. Este era nuestro reto.

El Guión.

Para crear el guión utilizamos ChatGPT, la conversación como siempre fue fluida. Fuimos pidiendo diferentes opciones hasta que nos dio una pista: El Dragón se convertiría en un Drone y la princesa sería una científica… El equipo “humano” acabó de adaptar la leyenda con estas dos ideas.

Las imágenes.

Para nosotros era importante integrar diferentes soluciones IA en un mismo proyecto, la dificultad era mayor porque se generan diferentes texturas y dificultan la consistencia de todo el video y acaba influyendo en la narrativa.

Stable Difussion Deforum.

Deforum utiliza interpolación de frames para generar algo parecido a lo que entendemos por vídeo, las texturas que genera son preciosas. Hay varias variables que podemos tocar para controlar un poco el resultado.

Nos sorprendió lo bien que quedó en el momento del fuego, se nota una evolución del incendio. Igual no os sorprende, pero nosotros que hemos trasteado mucha IA este último año nos quedamos muy sorprendidos de lo bien que funciona.

Librería quemándose generada por Stable Diffusion - Deforum

Runway Gen-1. 

Runway Gen-1 es una gozada,  bastante predecible y sobre todo muy divertido trabajar con él. Es un sistema de generación Video-to-Video, por tanto necesitas un video para que te genere otro video. Actualmente puedes generarlo a partir de 6 plantillas, un promp de texto o una imagen que en nuestro caso la generamos con Midjourney.,

Sant Jordi luchando. Imagen generada con Gen-1 de runway.
El modelo del video está rodado en el Parc Joan Miró de Barcelona. La textura que hay la pusimos para crear una cierta consistencia en todo el video.

ModelScope text-to-video

El último plano para mí es el más espectacular, es puro Text-to-Video. Lo hicimos con ModelScope, seguramente habrás visto el video de Will Smith comiendo pizza, se hizo con la misma tecnología. Por un lado es magia y por el otro es como una gran broma… porque francamente se ve mal, pero técnicamente es maravilloso.

Plano final generado con una IA Text-to-Video, ModelScope.

La locución.

Decidimos locutar con Murf.ai. Murf da una cierta flexibilidad para acabar de definir el tono y las pausas. Todavía no hemos encontrado aplicaciones con locuciones en castellano o catalán buenas. Supongo que también llegarán.

La música.

Es curioso que aunque la música, al ser un sistema matemático, fue uno de los primeros campos que se trabajó con la IA, no hemos encontrado todavía una aplicación que sustituya la composición humana. 

La edición.

La edición es 100% humana, supongo que acabará apareciendo algo que lo hará muy bien, pero todavía no hay en el mercado algo que de un sentido, emoción y ritmo.

El resultado podéis juzgarlo por vosotros mismos. Al ser una tecnología precoz, no tiene nada de perfecto.

Pero es una imperfección muy wabi-sabi (audiovisualmente hablando).

Aprendizajes.

Está todo por hacer, hay un camino maravilloso que hay que recorrer. Lo que vemos de Gen-2 de runway es muy prometedor, pero va todo tan rápido que seguramente antes de verano tendremos varias tecnologías que facilitarán aún más la creación de videos con IA.

Mientras podremos disfrutar de estas imprecisiones, texturas e inconsistencias tan propias que nos ofrece la IA en estos días.