新AI模型仅用一张照片即可生成45分钟实时唇同步视频
The Decoder··作者 Matthias Bastian
关键信息
LPM 1.0通过多粒度身份条件控制,结合不同角度和表情的参考图像来生成一致的面部细节,无需额外训练;支持三种对话状态:倾听、说话和空闲行为。
资讯摘要
LPM 1.0是一个研究项目,可以从单张图片生成长达45分钟且不中断的实时唇同步视频。它同时处理文本、音频和图像输入,生成自然的表情、眼神移动和情绪变化。该模型适用于写实人脸、动漫和3D角色等多种风格,并可接入ChatGPT等语音AI系统。
它能识别三种状态——倾听、说话和空闲,并相应调整表现。目前尚未公开发布,团队强调负责任使用并指出生成视频仍存在可见瑕疵。未来版本可能支持视频输入控制。
资讯正文
新AI模型仅用一张照片即可生成45分钟同步口型视频并实现实时运行
研究人员推出了LPM 1.0,这是一种AI模型,仅需一张图像就能实时生成说话、倾听或唱歌的角色视频,包含同步口型的语音、细微面部表情(如犹豫或视线转移)以及平滑的情绪过渡。
该模型可直接接入像ChatGPT这样的语音AI系统,并适用于多种视觉风格,包括写实人脸、动漫角色和3D游戏角色。
整个视频生成过程以实时流式处理方式运行,据称系统可稳定支持长达45分钟的视频。
LPM 1.0能够同时处理文本、音频和参考图像,输出同步口型的语音、细微面部表情以及情绪变化。它可以无缝接入来自ChatGPT或豆包等语音AI模型,实时创建可视化的对话伙伴。
该模型适用于不同图像风格,无论是写实人脸、动漫还是3D游戏角色,均无需额外训练。整个视频生成以流式处理方式进行,而非一次性渲染完成。系统可稳定生成长达45分钟的视频。
LPM 1.0采用研究人员称之为“多粒度身份条件控制”的机制:除了主图像外,模型还会接收来自不同角度和带有不同面部表情的参考图像。这意味着它无需自行创造细节,例如牙齿、与特定情绪相关的皱纹或侧面视角,而是可以直接从参考素材中提取这些信息。
该模型识别三种对话状态:在倾听时,根据输入音频生成反应性面部表情,如点头或视线移动;在说话时,响应音频驱动唇部动作和肢体语言;在停顿期间,LPM会基于文本指令生成自然的闲散行为。
除了实时对话功能外,项目负责人曾爱玲表示,LPM 1.0还支持从已有音频生成离线视频,这对播客或电影对白等内容创作非常有用,这为非实时聊天场景下的内容创作打开了可能性。当前版本不支持基于视频输入的控制,但曾爱玲表示未来框架可能支持这一功能。
目前仍为研究项目,暂无公开发布计划
开发团队强调,LPM 1.0纯粹是一个研究项目,目前没有发布权重、代码或公共演示的计划。所有展示的人脸均为AI生成,并非真实人物。研究人员承认生成的视频仍存在可见伪影,定量分析也证实其与真实视频质量之间存在明显差距。
团队表示,只有在具备充分保障措施和负责任使用框架的前提下,才会考虑开放访问权限。更多详情可在项目页面和技术报告中查阅。
即使是作为一项研究项目,LPM 1.0 也预示了未来的发展方向:人工智能系统不再仅通过文字或语音进行交流,而是以视觉上可信的角色出现,具备面部表情、眼神接触和情感反应。这种能力在教育、游戏、客户服务或虚拟陪伴等领域可能具有重要价值。
与此同时,这项技术也带来了严重风险。它正逼近实时深度伪造基础设施的边界,恶意行为者可能利用它进行欺诈、操纵或冒充他人。这些行为已经发生,而降低门槛的因素正在不断缩小。研究人员明确表示,该系统并非用于误导、欺骗或冒充真实人物。
AI 新闻,无炒作——由人类精选
订阅 THE DECODER,享受无广告阅读、每周 AI 简报、每年六次独家“AI 前沿报告”、完整档案访问权限以及评论区访问权限。
来源与参考
收录于 2026-04-14