VOID de Netflix: La revolución en edición de video impulsada por inteligencia artificial

Netflix ha dado un paso significativo en el campo de la inteligencia artificial aplicada al contenido audiovisual con el lanzamiento de VOID (Video Object and Interaction Deletion), su primer modelo de IA de código abierto. Esta herramienta no solo elimina objetos de videos, sino que también regenera lo que físicamente ocurriría en la escena sin ellos, resolviendo uno de los desafíos más complejos en la postproducción.

Más que simple eliminación: comprensión física de la escena

Lo que diferencia a VOID de otras soluciones de edición de video es su capacidad para entender las interacciones físicas entre objetos. Si eliminas a una persona que sostiene una guitarra, VOID no deja el instrumento flotando en el aire: lo hace caer al suelo, porque comprende que la persona era quien lo sostenía. Esta comprensión contextual representa un avance fundamental en la aplicación de IA al procesamiento de video.

El modelo está disponible públicamente en Hugging Face bajo la licencia Apache 2.0, lo que permite su uso comercial sin restricciones significativas. Esta decisión de Netflix de liberar la tecnología como open source refleja una visión estratégica de colaboración dentro de la industria.

Arquitectura técnica sofisticada

VOID no es un simple sistema de “inpainting” (relleno de píxeles). Utiliza un innovador sistema de “quadmask” que codifica cuatro valores diferentes:

El objeto a eliminar
Las zonas de superposición con otros elementos
Las regiones afectadas por la interacción (objetos que se moverán tras la eliminación)
El fondo que debe mantenerse intacto

Esta arquitectura se construye sobre CogVideoX, un modelo de difusión de video desarrollado por Alibaba, que ha sido afinado utilizando datos sintéticos de Kubric (Google) y HUMOTO (Adobe). Para el análisis de escena, VOID emplea Gemini 3 Pro, mientras que para la segmentación precisa utiliza SAM2 de Meta.

Rendimiento superior validado por usuarios

En pruebas rigurosas con 25 evaluadores humanos, VOID fue preferido en el 64,8% de los casos, superando significativamente a Runway (su competidor más cercano), que obtuvo solo un 18,4% de preferencia. Estos resultados demuestran no solo la eficacia técnica del modelo, sino también su calidad perceptible para el ojo humano.

El desarrollo de VOID fue liderado por investigadores de Netflix en colaboración con la INSAIT Sofia University, y el paper técnico está disponible como preprint en arXiv.

Impacto en la industria del entretenimiento

VOID aborda un problema real que cuesta millones de dólares a los estudios de producción: la necesidad de eliminar objetos no deseados de escenas ya grabadas sin tener que refilmar. Algunos ejemplos prácticos incluyen:

Un coche moderno que aparece accidentalmente en un drama de época
Logos de marcas visibles en escenas donde no deberían estar
Extras que no firmaron consentimientos de aparición

Tradicionalmente, estas correcciones requieren semanas de trabajo por parte de equipos de efectos visuales (VFX). Con VOID, el mismo proceso puede completarse en minutos, representando un ahorro de tiempo y recursos extraordinario.

Estrategia open source: colaboración sobre competencia

La decisión de Netflix de liberar VOID como open source sugiere que la compañía no ve esta tecnología como una ventaja competitiva exclusiva, sino como una herramienta para elevar los estándares de toda la industria. Este enfoque refleja una tendencia creciente en el sector tecnológico donde las empresas líderes comparten innovaciones fundamentales para acelerar el progreso colectivo.

Además, esta estrategia sirve como un imán para talento de IA, atrayendo desarrolladores e investigadores hacia el ecosistema de Netflix y posicionando a la compañía como un referente en innovación tecnológica aplicada al entretenimiento.

Preguntas frecuentes sobre VOID

¿Qué hace exactamente VOID?

VOID elimina objetos de videos y reconstruye automáticamente la física de la escena, incluyendo sombras, reflejos, y el comportamiento de objetos relacionados (como objetos que caen cuando se elimina lo que los sostenía).

¿Es gratuito?

Sí, completamente open source bajo licencia Apache 2.0 y disponible en Hugging Face para uso comercial y personal.

¿Cómo se compara con otras soluciones como Runway?

En pruebas con evaluadores humanos, VOID fue preferido significativamente más a menudo (64,8% vs 18,4% para Runway), demostrando una calidad superior en los resultados.

El futuro de la automatización en producción audiovisual

Herramientas como VOID representan solo el comienzo de una transformación profunda en cómo se produce y edita contenido audiovisual. En Dogalyir, seguimos de cerca estos desarrollos, ya que entendemos que la automatización inteligente y las soluciones basadas en IA están redefiniendo industrias enteras, no solo el entretenimiento.

La capacidad de procesar y modificar contenido de video de manera inteligente tiene aplicaciones que van mucho más allá de la producción cinematográfica, extendiéndose a marketing digital, educación, realidad virtual y numerosos otros campos donde el contenido visual juega un papel central.

VOID establece un nuevo estándar para lo que es posible lograr con IA aplicada al video, y su naturaleza open source asegura que esta tecnología beneficiará a toda la industria, acelerando la innovación y reduciendo barreras para creadores de todo tipo.

VOID de Netflix: La IA open source que elimina objetos de vídeos y reconstruye la física de la escena