Netflix开源VOID框架,实现视频物体移除并还原物理影响
The Decoder··作者 Matthias Bastian
关键信息
VOID结合了阿里巴巴的CogVideoX、Meta的SAM2和谷歌的Gemini 3 Pro,分别用于物体分割、交互检测和场景理解;第二阶段还使用光流校正来修复形状失真。
资讯摘要
Netflix开源了VOID(视频物体与交互删除)系统,它不仅能移除视频中的物体,还能还原这些物体原本造成的物理影响。该系统基于阿里巴巴的CogVideoX模型,并利用Kubric和HUMOTO生成的合成数据进行微调,通过谷歌Gemini 3 Pro识别被移除物体对周围环境的影响。Meta的SAM2负责跨帧分割目标物体,第二阶段还可通过光流校正修复视觉瑕疵。
该项目采用Apache 2.0许可证,允许商业使用。开发团队为Netflix与INSAIT及索菲亚大学合作完成,代码、论文和演示可在GitHub、arXiv和Hugging Face上获取。

资讯正文
Netflix开源了VOID,这是一个AI框架,可擦除视频中的物体并重写它们留下的物理效应。
Netflix已开源了一种AI框架,该框架能够从视频中移除物体,并自动调整这些物体对场景其余部分产生的物理影响。该系统名为VOID,全称为“视频物体与交互删除”(Video Object and Interaction Deletion)。其独特之处在于,它不仅能擦除场景中的物体,还能处理被移除物体原本引发的后续物理效应,例如碰撞等。
VOID基于阿里巴巴的CogVideoX视频扩散模型构建,并使用来自谷歌Kubric和Adobe HUMOTO的合成数据进行微调,以实现交互检测。谷歌Gemini 3 Pro负责分析场景并识别受影响区域,而Meta的SAM2则用于分割需要移除的物体。一个可选的第二阶段使用光流技术纠正任何形状失真。
该项目由Netflix研究人员与INSAIT索非亚大学合作开发。代码、论文和演示可在GitHub、arXiv和Hugging Face上获取。该系统采用Apache 2.0许可证发布,意味着可用于商业用途。
来源与参考
收录于 2026-04-05