INFOS

#Actualités

VOID de Netflix, un cadeau empoisonne pour les studios et les techniciens ?

Blog Image

Netflix vient de publier en open source VOID (Video Object and Interaction Deletion) un modèle d'IA capable de supprimer des objets dans une vidéo tout en recalculant les interactions physiques qu'ils provoquaient dans la scène. Hébergé sur Hugging Face et documenté sur une page de projet dédiée, VOID ne se contente pas d'effacer un objet : il tente de réécrire la physique de la scène comme si l'objet n'avait jamais existé.

Pour les producteurs, distributeurs et techniciens, il s'agit d'un signal fort. Jamais encore Netflix n'avait publié un outil directement lié au montage et aux effets visuels sur l'image brute. Le message implicite est double : Netflix veut peser dans la définition des standards de la post-production IA, et choisit délibérément l'ouverture plutôt que la black box propriétaire.

Des exemples qui parlent aux techniciens

Les démonstrations publiées sur la page projet sont parlantes. Dans l'une d'elles, deux voitures se dirigent l'une vers l'autre et se percutent ; VOID supprime l'une des deux et la seconde continue sa trajectoire sans le moindre artefact dans les débris ni la dynamique caméra. Dans un autre cas — devenu quasi-emblématique des communications autour du projet — une personne tient une guitare : une fois le personnage effacé, l'instrument ne « flotte » pas dans le vide ; il tombe au sol avec une animation physiquement cohérente.


« VOID préfère la simulation causale à la simple reconstruction de fond. Là où les outils classiques repeindent les pixels manquants, VOID raisonne sur ce qui se serait passé si l'objet n'avait pas existé. »— Page projet VOID, Netflix Research / INSAIT, avril 2026


Selon les évaluations présentées dans la documentation, VOID est préféré par des panels humains dans environ deux tiers des cas face à des outils commerciaux ou de recherche comme Runway, ProPainter, DiffuEraser, ROSE ou MiniMax-Remover — ce qui le positionne immédiatement comme une nouvelle référence du secteur.


Une longue histoire… mais un saut qualitatif

La suppression d'objets dans la vidéo n'est pas une nouveauté. Adobe After Effects propose son Content-Aware Fill depuis 2019 pour effacer câbles, perches-micros ou passants indésirables, en reconstruisant les pixels manquants à partir des images voisines. Des outils en ligne (Filmora, Runway, Runway Aleph) offrent déjà des fonctionnalités comparables en mode SaaS.


Mais VOID change d'échelle. Là où les solutions existantes « comblent le trou » laissé par l'objet, VOID recalcule les conséquences dynamiques de sa disparition : chutes, ricochets, décalages d'équilibre. C'est le passage d'un outil de retouche à un véritable simulateur de physique post-tournage — une différence qui intéressera tout superviseur VFX, chef décorateur ou responsable de continuité.


Une innovation technique qui change la donne

VOID s'appuie sur CogVideoX, un modèle de diffusion vidéo 3D d'environ cinq milliards de paramètres, affiné par l'équipe de recherche Netflix (en collaboration avec l'institut académique INSAIT) pour la tâche spécifique d'inpainting vidéo conscient des interactions physiques. L'originalité réside dans son quadmask : chaque pixel de la vidéo source est codé selon quatre valeurs — l'objet à supprimer (0), la zone de recouvrement (63), la zone d'interaction physique (127, là où les objets vont tomber ou se déformer) et l'arrière-plan conservé (255).


Le pipeline VOID en trois étapes clés

  1. L'utilisateur fournit une vidéo source, un quadmask (masque à 4 valeurs) et un prompt texte décrivant la scène sans l'objet supprimé.
  2. Une première passe de diffusion génère la séquence « contrefactuelle » avec cohérence physique sur l'ensemble des images.
  3. Une deuxième passe optionnelle corrige les artefacts temporels via un warping par flot optique, pour les plans plus longs.

Contenu de l’article


Netflix a entraîné le modèle sur un jeu de données synthétiques de scènes contrefactuelles générées via Kubric (Google) et HUMOTO (Adobe), avec et sans l'objet supprimé — afin que VOID apprenne explicitement la différence causale, et pas seulement le « remplissage de pixels ». Le code, les poids et une démo publique sont disponibles sous licence Apache 2.0 sur Hugging Face et GitHub.


Un précédent dans la stratégie open source de Netflix

Netflix n'en est pas à son premier geste d'ouverture. En 2019, le groupe avait publié Metaflow, son framework de workflows machine learning — utilisé en interne sur des centaines de projets avant d'être libéré. La même année, Polynote, un environnement de notebooks polyglotte (Scala, Python, SQL), avait suivi la même logique : industrialiser la R&D interne, puis partager.


Mais ces outils relevaient de l'infrastructure data. Avec VOID, Netflix franchit un pas symbolique : pour la première fois, un outil lié directement à la fabrication des images est mis entre les mains de l'écosystème. Le message à l'industrie est clair — Netflix entend contribuer à définir les standards de la post-production IA, et préfère jouer un rôle actif plutôt que de rester en observateur propriétaire.


Quels usages pour les professionnels ?

Pour les producteurs et les distributeurs, les cas d'usage sont immédiats : suppression d'éléments parasites en fond (figurants involontaires, véhicules, panneaux non clearés), corrections de continuité (accessoire mal positionné, erreur de raccord), ou modification de placements de produit pour certains territoires. Autant de tâches aujourd'hui coûteuses en roto et compositing manuel.


VOID pourrait également intéresser les laboratoires de restauration — pour effacer des modernités parasites dans des films d'époque — à condition de garantir un contrôle qualité shot par shot. Mais une limite matérielle s'impose : Netflix recommande au minimum 40 Go de VRAM (type GPU A100), ce qui réserve l'outil à des fermes de calcul ou des prestataires cloud, loin du poste de montage standard.

Un outil puissant, des garde-fous absents

La puissance de VOID soulève une question que le secteur ne peut pas ignorer : que devient la confiance dans les images quand on peut réécrire proprement une scène réelle, avec cohérence physique, à partir d'un modèle open source ? Les débats déjà vifs autour de Runway ou du Content-Aware Fill poussé à l'extrême vont mécaniquement s'intensifier.


En rendant la manipulation « physiquement plausible » et donc plus difficile à détecter, VOID abaisse le coût de productions potentiellement trompeuses — publicités retouchées, contenus politiques manipulés, vidéos virales fabriquées. Or Netflix et ses partenaires académiques ne fournissent, à ce stade, aucun garde-fou technique intégré : pas de watermarking systématique, pas de traçabilité des modifications, pas de détecteur de manipulation. La responsabilité est renvoyée aux utilisateurs finaux et aux régulations professionnelles.


Pour les studios, labs et prestataires, ignorer cet outil ne le fera pas disparaître. La question n'est pas « faut-il utiliser VOID ? » mais : à quelles conditions, dans quels segments du pipeline, et avec quelles garanties éthiques et contractuelles ? Des réponses que l'industrie devra formuler collectivement, et vite.


#Netflix #VOID #IA #VFX #PostProduction #Audiovisuel #OpenSource

KILLTHETAPE - Copyright © 2026 - Mentions légales