谷歌发布首个多模态视频生成模型VLOGGER AI：让静态人物肖像图像开口“说话”

来源： aicg搜索日期：2025-04-27 15:34:16

aicg搜索 → 首页 → AI教程资讯 → 谷歌发布首个多模态视频生成模型VLOGGER AI：让静态人物肖像图像开口“说话”

近日，谷歌在其 GitHub 页面发布博文介绍一款名为 VLOGGER AI 的新模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。

VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型，使用 MENTOR 数据库进行训练，该数据库中包含超过 80 万名人物肖像，以及累计超过 2200 小时的影片，从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

研究人员表示：“和此前的多模态模型相比，VLOGGER AI 的优势在于不需要对每个人进行训练，不依赖于人脸检测和裁剪，可以生成完整的图像（而不仅仅是人脸或嘴唇），并且考虑了广泛的场景（例如可见躯干或不同的主体身份），这些对于正确合成交流的人类至关重要”。

除了将静态人物进行动态转化之外，还可以针对不同语言系统进行口型的转换，比如将一则英语播报的主播转换为西班牙语的口型。这将有助于视频主播将内容注入更多的语言场景。

谷歌的研究团队认为，可以将 VLOGGER 应用于将 AI 聊天机器人具象可视化，比如让机器人拥有可视化的人物躯干，AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。 VLOGGER 的应用场景包括可以用于学术报告、教育场域和视频旁白等等 AI 数字人的应用领域。

围观项目主页：

https://enriccorona.github.io/vlogger/

读完这篇文章后，您心情如何？

0 喜欢
0 顶
0 无聊
0 围观
0 囧
0 难过

相关资讯

推荐阅读

网友评论

热门评论

最新评论

相关推送

: 1Roboflow查看 2即时 AI查看 3Clipdrop.co--AI查看 4天工智码 — SkyCode查看 5Canva可画查看 6AutoBackend----ai后端开发助手查看 7 esheep电子羊查看 8豆包MarsCode — 字节跳动查看

浏览排行

AI使用攻略: 更多+

1Mac装上字节豆包，竟能直接变声AI PC丨豆包电脑版最新功能分享 22023最新版的AI数字人生成器离线版，本地部署，解压立即可用！ 3吐司AI在线生成图像实测：消费级显卡轻松跑AI，RTX4090运行Benchmark，性能超出友商竞品27倍 4AI绘画工具测评_美图whee AI绘画工具 5国内首次2024全科高考AI测评开分：阿里通义、GPT-4o等七款大模型参与，文科进一本理科进二本 6给AI一张照片，生成全套写真丨腾讯ARC开源新技术-PhotoMaker本地部署全流程教学 7SDXL lora模型怎么训练_模型训练_stable diffusion怎么训练模型 8小白必备lora炼丹技巧_lora模型怎么训练

CG艺术长廊 | AI技术前沿 | 创新应用案例 | 行业深度解析 | 搜索技巧指南 | 社区互动论坛 | AI教程资讯 | 网站地图

Copyright 2009-2016 //www.aisoh.cc/ 版权所有

返回顶部