Netflix开源VOID框架,实现视频物体移除并还原物理影响

The Decoder··作者 Matthias Bastian

关键信息

VOID结合了阿里巴巴的CogVideoX、Meta的SAM2和谷歌的Gemini 3 Pro,分别用于物体分割、交互检测和场景理解;第二阶段还使用光流校正来修复形状失真。

资讯摘要

Netflix开源了VOID(视频物体与交互删除)系统,它不仅能移除视频中的物体,还能还原这些物体原本造成的物理影响。该系统基于阿里巴巴的CogVideoX模型,并利用Kubric和HUMOTO生成的合成数据进行微调,通过谷歌Gemini 3 Pro识别被移除物体对周围环境的影响。Meta的SAM2负责跨帧分割目标物体,第二阶段还可通过光流校正修复视觉瑕疵。

该项目采用Apache 2.0许可证,允许商业使用。开发团队为Netflix与INSAIT及索菲亚大学合作完成,代码、论文和演示可在GitHub、arXiv和Hugging Face上获取。

Netflix开源VOID框架,实现视频物体移除并还原物理影响

资讯正文

Netflix开源了VOID,这是一个AI框架,可擦除视频中的物体并重写它们留下的物理效应。

Netflix已开源了一种AI框架,该框架能够从视频中移除物体,并自动调整这些物体对场景其余部分产生的物理影响。该系统名为VOID,全称为“视频物体与交互删除”(Video Object and Interaction Deletion)。其独特之处在于,它不仅能擦除场景中的物体,还能处理被移除物体原本引发的后续物理效应,例如碰撞等。

VOID基于阿里巴巴的CogVideoX视频扩散模型构建,并使用来自谷歌Kubric和Adobe HUMOTO的合成数据进行微调,以实现交互检测。谷歌Gemini 3 Pro负责分析场景并识别受影响区域,而Meta的SAM2则用于分割需要移除的物体。一个可选的第二阶段使用光流技术纠正任何形状失真。

该项目由Netflix研究人员与INSAIT索非亚大学合作开发。代码、论文和演示可在GitHub、arXiv和Hugging Face上获取。该系统采用Apache 2.0许可证发布,意味着可用于商业用途。

来源与参考

  1. 原始链接
  2. Netflix open-sources VOID, an AI framework that erases video objects and rewrites the physics they left behind

收录于 2026-04-05