新AI模型仅用一张照片即可生成45分钟实时唇同步视频

The Decoder·4月14日 01:31 UTC·作者 Matthias Bastian

关键信息

LPM 1.0通过多粒度身份条件控制，结合不同角度和表情的参考图像来生成一致的面部细节，无需额外训练；支持三种对话状态：倾听、说话和空闲行为。

资讯摘要

LPM 1.0是一个研究项目，可以从单张图片生成长达45分钟且不中断的实时唇同步视频。它同时处理文本、音频和图像输入，生成自然的表情、眼神移动和情绪变化。该模型适用于写实人脸、动漫和3D角色等多种风格，并可接入ChatGPT等语音AI系统。

它能识别三种状态——倾听、说话和空闲，并相应调整表现。目前尚未公开发布，团队强调负责任使用并指出生成视频仍存在可见瑕疵。未来版本可能支持视频输入控制。

资讯正文

新AI模型仅用一张照片即可生成45分钟同步口型视频并实现实时运行

研究人员推出了LPM 1.0，这是一种AI模型，仅需一张图像就能实时生成说话、倾听或唱歌的角色视频，包含同步口型的语音、细微面部表情（如犹豫或视线转移）以及平滑的情绪过渡。

该模型可直接接入像ChatGPT这样的语音AI系统，并适用于多种视觉风格，包括写实人脸、动漫角色和3D游戏角色。

整个视频生成过程以实时流式处理方式运行，据称系统可稳定支持长达45分钟的视频。

LPM 1.0能够同时处理文本、音频和参考图像，输出同步口型的语音、细微面部表情以及情绪变化。它可以无缝接入来自ChatGPT或豆包等语音AI模型，实时创建可视化的对话伙伴。

该模型适用于不同图像风格，无论是写实人脸、动漫还是3D游戏角色，均无需额外训练。整个视频生成以流式处理方式进行，而非一次性渲染完成。系统可稳定生成长达45分钟的视频。

LPM 1.0采用研究人员称之为“多粒度身份条件控制”的机制：除了主图像外，模型还会接收来自不同角度和带有不同面部表情的参考图像。这意味着它无需自行创造细节，例如牙齿、与特定情绪相关的皱纹或侧面视角，而是可以直接从参考素材中提取这些信息。

该模型识别三种对话状态：在倾听时，根据输入音频生成反应性面部表情，如点头或视线移动；在说话时，响应音频驱动唇部动作和肢体语言；在停顿期间，LPM会基于文本指令生成自然的闲散行为。

除了实时对话功能外，项目负责人曾爱玲表示，LPM 1.0还支持从已有音频生成离线视频，这对播客或电影对白等内容创作非常有用，这为非实时聊天场景下的内容创作打开了可能性。当前版本不支持基于视频输入的控制，但曾爱玲表示未来框架可能支持这一功能。

目前仍为研究项目，暂无公开发布计划

开发团队强调，LPM 1.0纯粹是一个研究项目，目前没有发布权重、代码或公共演示的计划。所有展示的人脸均为AI生成，并非真实人物。研究人员承认生成的视频仍存在可见伪影，定量分析也证实其与真实视频质量之间存在明显差距。

团队表示，只有在具备充分保障措施和负责任使用框架的前提下，才会考虑开放访问权限。更多详情可在项目页面和技术报告中查阅。

即使是作为一项研究项目，LPM 1.0 也预示了未来的发展方向：人工智能系统不再仅通过文字或语音进行交流，而是以视觉上可信的角色出现，具备面部表情、眼神接触和情感反应。这种能力在教育、游戏、客户服务或虚拟陪伴等领域可能具有重要价值。

与此同时，这项技术也带来了严重风险。它正逼近实时深度伪造基础设施的边界，恶意行为者可能利用它进行欺诈、操纵或冒充他人。这些行为已经发生，而降低门槛的因素正在不断缩小。研究人员明确表示，该系统并非用于误导、欺骗或冒充真实人物。

AI 新闻，无炒作——由人类精选

订阅 THE DECODER，享受无广告阅读、每周 AI 简报、每年六次独家“AI 前沿报告”、完整档案访问权限以及评论区访问权限。

来源与参考