abril 18, 2024

SORA: la sorprendente evolución de los vídeos generados por IA

SORA: la sorprendente evolución de los vídeos generados por IA

SORA es la nueva tecnología de generación de video de IA de OpenAI, y es algo que puedo garantizar con seguridad que no aparecerá hasta dentro de 4 o 5 años de investigación. Normalmente diría que está bien equivocarse, pero esta vez también tengo miedo.

Un Sora impresionante (Crédito: Difusión Estable/Editoria de Arte)

Existen varias técnicas para generar imágenes mediante IA y Sora utiliza dispositivos de difusión, como Stable Diffusion. En resumen, como he explicado en varios artículos de Cómo funciona la tecnología, la IA está entrenada para reconocer imágenes basándose en ruido aleatorio, de la misma manera que podemos reconocer objetos en las nubes, caras en las hojas y dioses en las tostadas.

El truco consiste en enseñarle a la IA cuándo reconoce un objeto, agregar ruido a la imagen y recompensarla cuando reconoce el objeto. Ha llegado a un punto en el que la imagen para nosotros es puro ruido aleatorio, pero la IA puede imponer un patrón y reconstruir el objeto.

La imagen se destruye gradualmente a medida que se agrega ruido gaussiano (Fuente de la imagen: nVidia)

Si lo entrenas con suficiente variedad, aprende el concepto de objeto, por lo que si le pides que busque un gato y estudia decenas de miles de imágenes, tendrá un modelo estadístico de cómo debería verse el gato, y extraer del ruido una imagen que antes no existía.

Gato genérico (Crédito: Difusión estable)

Sora hace lo mismo, pero con vídeo. En 3D.

Para aquellos que siguen el mundo de la inteligencia artificial, leen una gran cantidad de artículos de investigación e incluso apenas entienden algunos de ellos, Sora fue una sorpresa. Los problemas con la creación de videos consistentes son mayores que con las imágenes «simples».

Hasta ahora teníamos dos formas principales de crear vídeos mediante IA: AnimateDiff + ControlNet y Stable Video Diffusion.

AnimateDiff utiliza modelos entrenados con vídeos centrados en movimiento. Es capaz de crear y animar imágenes en lotes de 16 fotogramas, pero casi sin control. Con paciencia puedes crear muchas cosas maravillosas, pero nada amenaza tu dibujo.

Usando herramientas como ControlNet, OpenPose y otras, podemos extraer vectores de movimiento de otros videos y aplicarlos a la animación. Es mucho trabajo, pero en teoría es suficiente para crear una animación completa, simulando MotionCap, sin la molestia de pegar las pelotas de ping pong de otras personas.

Stable Video Diffusion es un modelo entrenado exclusivamente para video, que es capaz de generar TXT2VID e IMG2VID, es decir, recibir un mensaje o una imagen como entrada. Y los resultados (bueno, hace seis meses) fueron impresionantes.

Sora situó estas técnicas en la Edad de Piedra.

A diferencia de las tecnologías anteriores, que apenas pueden mantener la coherencia durante unas pocas docenas de fotogramas (25 y SVD comienza a cargarse), Sora puede crear vídeos de 1 minuto.

Sora tiene una coherencia total, incluso logra la permanencia de los objetos, los objetos pueden ser bloqueados temporalmente por otros y luego aparecer nuevamente. Este es un modelo de difusión muy complejo.

La formación se basó en el concepto de parches, donde cada elemento del vídeo se trata como un elemento individual, lo que proporciona más flexibilidad. Sora no es un creador de píxeles; Mundosque intenta mantener la coherencia y sólo entonces acaba convirtiéndolo en imágenes.

Un fenómeno no planificado observado después de que Sora comenzara a hacer videos es que él solo desarrolló varios modelos de simulación de física interna. Sora aprendió por sí mismo dinámica de fluidos, gravedad, luz, trazado de rayos estudiando los videos utilizados en su entrenamiento, y el resultado son imágenes impresionantes como esta de dos barcos piratas en una taza de café.

Todo el movimiento de las olas, algo que era casi imposible en la época del Titanic, y que hasta el día de hoy es algo caro y que requiere mucho tiempo en Hollywood, fue deducido por Sora, sin una línea de programación o configuración.

Y a diferencia de las soluciones de Difusión Estable, Sora utiliza GPT-3 (al menos) para interpretar las indicaciones, consiguiendo mayor precisión y facilidad de comprensión, del mismo modo que DALL-E 3 entiende mejor lo que queremos.

Esto significa que Sora no sólo crea lo que le pedimos, sino que también cambia vídeos preexistentes.

Exacto, Sora acepta videos y puedes solicitar cambios en ellos.

Oh, Sora también crea videos usando imágenes fijas.

La habilidad casi surrealista es combinar dos videos existentes en un tercero. Es un resultado casi onírico: las matemáticas puras ofrecen algo digno de Lord Morfeo.

Sora todavía tiene muchas limitaciones, más allá del límite de un minuto. Muchas simulaciones de física no se implementan correctamente, hay inconsistencias con los objetos especialmente en las imágenes de fondo, los objetos tienden a desaparecer, pero qué hacer. Odiadores Lo que no entienden, al igual que los negacionistas, es que estamos asistiendo a la edad de piedra de esta tecnología.

Cuenta la leyenda que después de que Michael Faraday demostrara los principios de la inducción magnética, generando electricidad a partir de campos magnéticos, un ministro u otro alto burócrata preguntó para qué servía la tecnología.

Según se informa, Faraday respondió: «Su Eminencia, ¿de qué sirve un bebé recién nacido?»

Comenté en Xwiter que el Sora es 14 Bis y la gente está criticando a Santos Dumont por no construir una SR-71. Es una ridícula falta de imaginación pensar que estamos ante la versión final de esta tecnología.

Durante parte del día, Sam Altman jugó siguiendo las indicaciones de sus seguidores y creando vídeos con Sora, cuyo acceso sigue limitado únicamente a los VIP de OpenAI. Ser capaz de crear vídeos consistentes desde cero, con resolución FullHD, en unos pocos minutos es una tarea desalentadora, incluso si requiere un centro de datos enorme.

Hace algún tiempo presenté el Stable Diffusion XL Turbo, que esencialmente funciona en tiempo real.

Es una herramienta que lo cambia todo, ya que puedes redactar guiones gráficos, diseñar escenas e ilustraciones más rápido que cualquier diseñador. Los ilustradores pueden componer escenas y paneles, y la planificación que puede llevar días y días de ida y vuelta con el cliente se puede realizar en el acto.

Extrapolar al vídeo. Imagínese obtener una vista previa de una escena completa y solo describirla en detalle a la IA. Hoy en día hay empresas enteras que se dedican a esto, y cuesta mucho y lleva mucho tiempo.

Hay quienes dicen que alimentaremos a una IA con un libro y producirá una película completa, pero esto es ciencia ficción, imposible, esto es algo en un futuro lejano, como dentro de 5 años.

Sora es sólo el comienzo. Es fácil imaginar a un maestro planificando lecciones y describiendo los gráficos y videos que necesita para explicar los conceptos que usará ese día, así como es fácil imaginar a un estudiante en casa pidiéndole a su personaje favorito que le explique lo que no entiende. .

Obviamente el uso principal de esta tecnología sería Pr0n, pero este ha sido el estándar desde Gutenberg.

En cuanto a Hollywood, no creo que Sora o cualquier otra IA destruya la industria. La IA es tan buena como dice ser, si no sabes lo que estás pidiendo, el resultado será mediocre.

Ninguna IA escribirá el próximo casa Blancano sin un entrada la calidad. Y luego caemos en el meme clásico. Robo, que se ha vuelto increíblemente viejo. Cuando Will Smith le preguntó al robot Sonny si podía escribir una sinfonía o pintar una obra maestra, Sonny respondió: «¿Eres capaz?»

Con el mensaje correcto, la IA puede crear hermosas imágenes. El problema es el enrutador.

hoy Todo ze-ruela publica librosYa no hay ningún control por parte del editor, cualquiera puede escribir y publicar sus libros en Internet. El resultado ha sido una caída increíble en la calidad promedio del material publicado, y el 99% de los libros autoeditados en Amazon son una mierda.

Esta es una herramienta, sólo una herramienta. Si se utiliza bien, abre espacio para la creatividad y permite que las buenas ideas cobren vida. Las personas que no saben dibujar una línea recta escriben cómics. Los programadores que tienen buenas ideas pero no saben dibujar lanzan juegos de rol. Artistas que no tienen experiencia en programación desarrollan juegos con la ayuda de ChatGPT.

Las herramientas siempre están expandiéndose, nunca disminuyendo. Nadie deja de hacer algo porque se lanza una herramienta. Quejarse de esto significó que el cine sonoro dejara sin trabajo a pianistas y diseñadores de tarjetas de voz.

Sora, o mejor dicho la tecnología de la que forma parte, cambiará el mundo, mucho más que Internet, mucho más que la Revolución Industrial, que da miedo porque es una tecnología que afecta a las actividades más nobles.

Todos los ilustrados han ignorado los avances tecnológicos que han diezmado profesiones como los ascensoristas, los portadores de lámparas y los operadores de marcadores de estadios, pero el objetivo ahora son los artistas, escritores, editores, ilustradores y personas que secretamente se consideran «superiores» a los simples. insignias de trabajadores.

Bueno niños, parece que las tornas han cambiado…