InicioTecnologíaMeta presenta una IA que genera video basado en mensajes de texto

Meta presenta una IA que genera video basado en mensajes de texto


Aunque el efecto es bastante tosco, el sistema ofrece un vistazo temprano de lo que viene a continuación para la inteligencia synthetic generativa, y es el próximo paso obvio de los sistemas de IA de texto a imagen que han causado gran entusiasmo este año.

El anuncio de Meta de Make-A-Video, que aún no está disponible para el público, probablemente incitará a otros laboratorios de IA a lanzar sus propias versiones. También plantea algunas grandes cuestiones éticas.

Solo en el último mes, el laboratorio de inteligencia synthetic OpenAI ha creado su último sistema de inteligencia synthetic de texto a imagen. DALL-E disponible para todos, y la startup de inteligencia synthetic Stability.AI lanzó Secure Diffusion, un sistema de texto a imagen de código abierto.

Pero la IA de texto a video presenta algunos desafíos aún mayores. Por un lado, estos modelos necesitan una gran cantidad de potencia informática. Son un impulso computacional aún mayor que los grandes modelos de IA de texto a imagen, que usan millones de imágenes para entrenar, porque armar un solo video corto requiere cientos de imágenes. Eso significa que en realidad solo las grandes empresas de tecnología pueden permitirse construir estos sistemas en el futuro previsible. También son más complicados de entrenar, porque no hay conjuntos de datos a gran escala de movies de alta calidad combinados con texto.

Para solucionar esto, Meta combinó datos de tres conjuntos de datos de imágenes y movies de código abierto para entrenar su modelo. Los conjuntos de datos estándar de imágenes de texto de imágenes fijas etiquetadas ayudaron a la IA a aprender cómo se llaman los objetos y cómo se ven. Y una base de datos de movies lo ayudó a aprender cómo se supone que esos objetos se mueven en el mundo. La combinación de los dos enfoques ayudó a Make-A-Video, que se describe en un artículo no revisado por pares. artículo publicado hoygenera movies a partir de texto a escala.

Tanmay Gupta, científico investigador de visión por computadora en el Instituto Allen de Inteligencia Synthetic, cube que los resultados de Meta son prometedores. Los movies que se comparten muestran que el modelo puede capturar formas 3D a medida que gira la cámara. El modelo también tiene cierta noción de profundidad y comprensión de la iluminación. Gupta cube que algunos detalles y movimientos están hechos decentemente y son convincentes.

Sin embargo, “hay mucho espacio para que la comunidad de investigación mejore, especialmente si estos sistemas se van a utilizar para la edición de video y la creación de contenido profesional”, agrega. En explicit, todavía es difícil modelar interacciones complejas entre objetos.

En el video generado por el mensaje «El pincel de un artista pintando en un lienzo», el pincel se mueve sobre el lienzo, pero los trazos en el lienzo no son realistas. «Me encantaría ver que estos modelos tuvieran éxito en generar una secuencia de interacciones, como ‘El hombre coge un libro del estante, se pone las gafas y se sienta a leerlo mientras bebe una taza de café'», Gupta cube.

RELATED ARTICLES

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Más popular

Recent Comments