不久的将来，现实世界中的每一个地方和事物 —— 每一条街道、每一个灯柱、每一栋建筑物和每一个房间 —— 都会在镜像世界中拥有它的全尺寸“数字孪生兄弟”。
——凯文·凯利

虚拟数字人项目就是为了拓展高保真数字人的技术边界，将电影技术应用于游戏开发而寻求新的商业机遇。主要应用的技术包括：照相建模、实时动捕、表情捕捉。

在电影《西蒙妮》中，人们曾描绘过AI虚拟主播的理想形态：她是一个由计算机虚拟合成的、高度逼真的三维动画人物。她美得令人无法拒绝，一言一行都与真人一样，并可以完成一切表演、播报，且不会有任何绯闻。

迈克斯·泰格在《生命LIFE 3.0》一书中说，生命3.0是一个由人工智能重塑的时代。在这个时代，我们可以设计自己的硬件和软件。

所谓的“像真人”，不外乎是运用“AI合成”技术。“虚拟主播”通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征，运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。

该项技术要能够将所输入的中英文文本自动生成相应内容的视频，并确保视频中音频和表情、唇动保持自然一致，展现与真人主播无异的信息传达效果。但在此之前，出现在大众媒体上的虚拟主播，多半只有声音，或者匹配一个量身定制的虚拟形象，比如微软小冰在东方卫视担任天气预报员就是如此。
要实现这样的效果，两大要求缺一不可。其一是高逼真度。要能够自动生成语音、表情、唇动等信息完全一致的自然视频，并已达到商用级别。其二是低成本的个性化定制。小数据的学习模型，使用少量用户真实音视频数据，快速迁移生成虚拟的分身模型，快速定制出高逼真度的分身模型。最后，使用时输入一段文本，即可生成与真人无异的同步音视频。

除此之外，语音合成引擎和图像生成引擎也是重要的两点。在语音合成引擎中，基于用户少量音频数据，使用语音合成技术，快速学习用户音色、韵律、情感等多维度特征，建立输入文本与输出音频信息的关联。

图像生成引擎，则是使用人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模，建立输入文本、输出音频与输出视觉信息的关联映射，生成输出分身视频。

最后，两大引擎协作打磨，最终才能实现“AI合成主播”，能够逼真模拟人类说话的声音、嘴唇动作和表情，并将三者自然匹配，做到惟妙惟肖，让机器以更逼真自然的形象呈现在用户面前。

北京欧雷成立于2007年，是国内专业VR虚拟现实和影视动漫制作整体解决方案的供应商。公司致力于国内VR、影视、动漫、游戏、虚拟仿真和虚拟现实等产业软硬件产品的研发、生产和服务，目前已和上千家院校企业建立了良好的合作关系，受到客户的一致好评和信赖。

上一篇OptiTrack助力一飞智控“机智过人”下一篇客户案例|欧雷Faceware助力京东联合利华破次元直播

服务项目

企业介绍

联系我们

解决方案

应用领域

扫码关注公众号

186-0005-0633

周一至周五（9：00-18：00）

全国统一服务热线：186-0005-0633

传真地址：01088456578-8002

邮寄地址：北京市海淀区大钟寺13号院1号楼9层9B11室

技术支持