Netflix开源VOID框架，实现视频物体移除并还原物理影响

The Decoder·4月4日 19:14 UTC·作者 Matthias Bastian

关键信息

VOID结合了阿里巴巴的CogVideoX、Meta的SAM2和谷歌的Gemini 3 Pro，分别用于物体分割、交互检测和场景理解；第二阶段还使用光流校正来修复形状失真。

资讯摘要

Netflix开源了VOID（视频物体与交互删除）系统，它不仅能移除视频中的物体，还能还原这些物体原本造成的物理影响。该系统基于阿里巴巴的CogVideoX模型，并利用Kubric和HUMOTO生成的合成数据进行微调，通过谷歌Gemini 3 Pro识别被移除物体对周围环境的影响。Meta的SAM2负责跨帧分割目标物体，第二阶段还可通过光流校正修复视觉瑕疵。

该项目采用Apache 2.0许可证，允许商业使用。开发团队为Netflix与INSAIT及索菲亚大学合作完成，代码、论文和演示可在GitHub、arXiv和Hugging Face上获取。

资讯正文

Netflix开源了VOID，这是一个AI框架，可擦除视频中的物体并重写它们留下的物理效应。

Netflix已开源了一种AI框架，该框架能够从视频中移除物体，并自动调整这些物体对场景其余部分产生的物理影响。该系统名为VOID，全称为“视频物体与交互删除”（Video Object and Interaction Deletion）。其独特之处在于，它不仅能擦除场景中的物体，还能处理被移除物体原本引发的后续物理效应，例如碰撞等。

VOID基于阿里巴巴的CogVideoX视频扩散模型构建，并使用来自谷歌Kubric和Adobe HUMOTO的合成数据进行微调，以实现交互检测。谷歌Gemini 3 Pro负责分析场景并识别受影响区域，而Meta的SAM2则用于分割需要移除的物体。一个可选的第二阶段使用光流技术纠正任何形状失真。

该项目由Netflix研究人员与INSAIT索非亚大学合作开发。代码、论文和演示可在GitHub、arXiv和Hugging Face上获取。该系统采用Apache 2.0许可证发布，意味着可用于商业用途。

来源与参考

收录于 2026-04-05