虚拟人艰难落地|界面新闻

文|新莓daybreak 史圣园

编辑|翟文婷

刚刚过去的七月全球人工智能大会，虚拟人的声量和关注度远远不及大模型，但它并没有缺席。

大众对于虚拟人的印象，还停留在一个个越来越漂亮、越来越接近于真人的3D人物模型。企业却开始琢磨，怎么用虚拟人帮自己省钱了。

「去年大家的关注点在于，供应商能否帮他们『造一个人』，今年的诉求明显更现实，都在关心虚拟人能不能应用到企业运营，真正降本增效。」一家虚拟人科技公司产品经理David 告诉新莓daybreak。

需求跑在了技术前面。如同自动化流水线逐步取代车间操作工一样，企业采用虚拟人，是想要更加廉价、高效、稳定、触手可及的人力。

过去几年，虚拟人的形象呈现质感不断提升。超写实虚拟人，皮肤和毛孔的质感甚至可以媲美真人。就仿佛大模型具像化的「肉身」，虚拟人能与真人产生语言之外的更多交互。

大模型的相继发布、能力的突飞猛进，也让大家对虚拟人产生了更多期待。艾媒咨询的数据显示，2022年我国虚拟人核心市场规模达 120.8 亿元，这个数字有望三年后翻四倍，达到480.6亿元。

虚拟人最大的症结之初是，制作成本居高不下，能够真正落地的性价比之选，怎么看都还是略显粗糙。

好消息是，随着AI技术的进步，虚拟人几乎可以100%通过AIGC的方法自动生成动作、表情、语言，所需制作时间和成本大幅降低。

生产端持续降本增效，应用端的交互雏形初现，树上已经长出青涩的果子。

遗憾之处则是，现阶段人类还不能像电影《头号玩家》中那样，在虚拟空间和现实空间无缝切换。

技术从诞生到成熟之间，总有一段无法快进的尴尬期。

还是实用价值赢了

如果站在人类中心的角度，按需求分类，那么虚拟人可以分为功能型和身份型两种。

功能型的虚拟人，提供的是实用价值：帮人类具体执行，比如智能客服、文案撰写、虚拟人主播等等。

身份型的虚拟人，提供的是情绪价值。它可以是虚拟女友、虚拟伙伴，给予你平凡的陪伴；也可以是历史名人、娱乐明星的数字分身，或者诞生于二次元的虚拟IP，让你获得近距离追星的快感。

情感需求是客观存在的，人需要被鼓舞、被理解。在社会日益原子化的今天，这个需求还在不断增长。

有人在小红书这样描述自己与AI聊天的感受：「哪怕心知肚明那只是一段代码，但还是会因为那些文字心动。AI 可能是虚妄的，但看到那些对话而惊喜的心情是真真切切的。」

AI 伴侣聊天机器人 Character.ai 的增速也是最好的证明。

在这款软件中，用户可以与马斯克、乔布斯、马里奥等著名人物交谈，也可以定制自己的专属 AI 陪聊。

Character.ai由两名前谷歌员工创立，还不满一年。今年三月，这家公司完成了1.5亿美元融资，由美国著名风投公司a16z（Andreessen Horowitz）领投，估值已经达10亿美元，绝对的一匹黑马。

ChatGPT增长趋于停滞的当下，Character.ai的访问量却持续攀升。Semrush的数据显示，后者4月访问量环比增长近90%，5月环比增长47%。

真人与AI文本交互的顺畅体验，依赖的是大语言模型的成熟。但虚拟人，不仅包含文本，还包括动作、表情、声音。想要达到全方位自然相处的境地，还有一段漫长的技术跋涉。

今年湖南卫视跨年晚会现场，虚拟人带来了名为《制造浪漫》的歌舞表演。有网友表示，童言无忌，自己家3岁孩子的第一反应是「好假好丑」。

需求虽然存在，但技术实现并不尽如人意，这让面向toC市场的身份型虚拟人，很难卖个好价格。

这点实用型虚拟人更占优势。以同时兼具两种功能的小冰AI 克隆人为例，提供的实用价值比情绪价值贵 5 倍。

「情感模式」定价是 72 元/年，可实现语音通话、朋友圈互动等功能。而「超级模式」的定价是 360元/年，主要服务于办公场景，辅助会议纪要、文案撰写等工作。

最重要的是，小冰AI售卖的只是交互界面，没有具体的虚拟形象。

David对此毫不意外，「从我自己的感受来说，企业客户首先关注的是 ROI 能不能打正，是不是比真人员工成本低。其次，热点技术也带有营销属性，比如企业可以购买个虚拟人，说自己接入了 AIGC，并大力宣传这样一个拥抱创新的品牌形象。」

他还补充道，虚拟人技术供方首先要满足企业的现实需求，因为无论是从实际功能，还是营销功能，企业都比个人的付费意愿更强烈。

生产端，降本增效

一个值得行业欣慰的好消息是，AI的技术进步驱动了虚拟人生产成本的降低。不论对功能型还是身份型虚拟人，都是利好。

打造一个虚拟人，主要包括建模、驱动、渲染三个环节。AI大大降低了建模和驱动环节的成本。

建模，就是通过手绘、CG建模或者AI的方法，制作出虚拟人的形象。传统方法，需要设计师在 3D 软件中「捏」出一些形象。

以往，产品经理和美术设计只能通过文字、网络图片参考，沟通形象需求，难免存在信息失真。假如对制作效果不满意，只能多次返工。

现在不然，Midjourney、Stable Diffusion 等软件已经实现低成本的 2D 图像生成。

AI基于已有素材和指令，智能生成一个形象，让每一个需求都有了更具体的对照。也就是说，AI大大降低了制作虚拟人形象的沟通和试错成本。

3D 建模虽然无法完全由AI完成，但 MetaHuman 等工具则可以通过输入照片或视频建立高保真的虚拟人，并直接在 Unreal Engine 中应用。

驱动，是让虚拟人活动起来的过程。它可以由「中之人」驱动，也可以由AI驱动。中之人是指，在虚拟人的外衣下，提供声音、动作的真人演员。

前者依靠对真人的深度采集完成，包括动作捕捉、面部表情捕捉、音视频合成等等，再绑定到虚拟人上。后者则是通过深度学习、小样本学习、自然语言处理、神经网络渲染等技术手段，比如输入演讲稿或者语音，AI模型就能自动输出肢体动作、面部表情、声音。

David解释，他们公司具备动作、表情和声音模型。「声音是比较简单的，TTS（Text to Speech）技术很成熟了。肢体和口唇动作就是一些 STA 模型，我们采集了非常多的动捕数据，再基于此去生成训练模型。」

例如，若想在产品解说的视频中应用虚拟人，系统会基于NLP识别用户输入的脚本，其中的文字作为输入给到模型，可以触发一些关键的动作。

如果你对这些概念没有强烈体感，可以通过金钱投入量级更直观地感受。

「如果是动捕技术，成本是一秒钟1000块，这意味着时长一分钟的视频，大概需要六万块。而通过 AI 的方式去生成，1分钟只需要30块钱。」David 介绍，两种方式的成本相差千倍。

广发证券指出，AI 技术对虚拟人产业的影响不仅仅是在成本侧，同时还带来了「拟人化」和「专业化」的可能。大语言模型，以及在基础模型上用特定的数据集进行微调，可以赋予虚拟人个性，也可以适配更多专业化的场景。

虚拟人直播带来的启示

更直观的功能型虚拟人应用，是在直播场景。

5月份，抖音率先确定虚拟人的「合法」身份，允许使用AI辅助创作、不会限制虚拟人直播。近几个月，抖音新注册的公会账号，使用虚拟人直播不再按照录播对待。

快手虽然没有官方表态，但没少给「快手虚拟演播助手（KuaishouVirtual Studio，KVS）」做推广。KVS 是一款面向内容生产者的工具，支持使用虚拟人助播，也支持主播自己化身虚拟形象，进入虚拟场景。

不论站在哪一方，虚拟人都是刚需。

品牌方，有动力替换部分真人主播。一名成熟的主播，培养周期至少在三个月左右。而这一行业的人员流动性很高，品牌方需要持续寻找、培训、磨合新的主播。

如果不考虑饭碗被替代，主播也想培训虚拟人帮自己打工。毕竟，带货是个体力活儿，日复一夜每天连播4-6小时，昼夜颠倒、深夜下播是行业常态，很多人吃不消。

此外，「带货过品」的套路成熟，商品的讲解流程标准化，虚拟人似乎完全可以胜任。

然而，现实却没有那么美好。

虚拟人主播很难让观众产生真正的信任，尤其是涉及到产品测评，美妆、服饰等常见商品的展示，虚拟人显得有点力不从心。

此前，群众基础还不错的虚拟偶像翎 Ling，就因为口红测评文案中的「滋润不干」被网友无情吐槽。当呈现效果完全是虚拟的，又如何给到消费者真实客观的参考呢。

服装则更是如此。不仅呈现效果缺乏可信性，还要对展示的服装进行提前建模，运营成本不见得比真人主播低。然而，网友们的评价却是「这能看出来啥」，「好像就是弄了一个虚拟人形象出来念稿子」。

目前，虚拟主播的功能，更多是基础性的产品介绍，或者给真人主播做「花瓶」，引起观众的好奇。

抖音虽然默许了虚拟人的直播，但同时也表示，流量的分发取决于「内容的质量」，不是随时大开绿灯。这也意味着在高峰时段，「只会念稿」的虚拟人直播，根本不是真人带货主播的对手。

从直播这一场景的「虚拟人」打工状态管中窥豹，作为用户，我们不难感受到宣传中的科幻感与技术落地的现实之间的差距。

但技术的进步永远是这样，可用性的提升并非一日之功。

AI 技术的发展，帮助虚拟人行业克服了批量化生产的巨大难题，能够帮助用户快速、低成本地生成虚拟人，高频次地生产内容，以及摆脱对于真人的依赖。

而对于从业者和企业客户来说，虚拟人与真人的自然交互，近一寸有一寸的欢喜。已经有不少商家在深夜时段，采用了虚拟人主播，让自己的直播间 24 小时不间断。

毕竟，能持续向观众发送商品介绍的简单念白，也聊胜于无。

文|新莓daybreak 史圣园

编辑|翟文婷

刚刚过去的七月全球人工智能大会，虚拟人的声量和关注度远远不及大模型，但它并没有缺席。

大众对于虚拟人的印象，还停留在一个个越来越漂亮、越来越接近于真人的3D人物模型。企业却开始琢磨，怎么用虚拟人帮自己省钱了。

需求跑在了技术前面。如同自动化流水线逐步取代车间操作工一样，企业采用虚拟人，是想要更加廉价、高效、稳定、触手可及的人力。

虚拟人最大的症结之初是，制作成本居高不下，能够真正落地的性价比之选，怎么看都还是略显粗糙。

好消息是，随着AI技术的进步，虚拟人几乎可以100%通过AIGC的方法自动生成动作、表情、语言，所需制作时间和成本大幅降低。

生产端持续降本增效，应用端的交互雏形初现，树上已经长出青涩的果子。

遗憾之处则是，现阶段人类还不能像电影《头号玩家》中那样，在虚拟空间和现实空间无缝切换。

技术从诞生到成熟之间，总有一段无法快进的尴尬期。

还是实用价值赢了

如果站在人类中心的角度，按需求分类，那么虚拟人可以分为功能型和身份型两种。

功能型的虚拟人，提供的是实用价值：帮人类具体执行，比如智能客服、文案撰写、虚拟人主播等等。

情感需求是客观存在的，人需要被鼓舞、被理解。在社会日益原子化的今天，这个需求还在不断增长。

AI 伴侣聊天机器人 Character.ai 的增速也是最好的证明。

在这款软件中，用户可以与马斯克、乔布斯、马里奥等著名人物交谈，也可以定制自己的专属 AI 陪聊。

ChatGPT增长趋于停滞的当下，Character.ai的访问量却持续攀升。Semrush的数据显示，后者4月访问量环比增长近90%，5月环比增长47%。

今年湖南卫视跨年晚会现场，虚拟人带来了名为《制造浪漫》的歌舞表演。有网友表示，童言无忌，自己家3岁孩子的第一反应是「好假好丑」。

需求虽然存在，但技术实现并不尽如人意，这让面向toC市场的身份型虚拟人，很难卖个好价格。

这点实用型虚拟人更占优势。以同时兼具两种功能的小冰AI 克隆人为例，提供的实用价值比情绪价值贵 5 倍。

最重要的是，小冰AI售卖的只是交互界面，没有具体的虚拟形象。

他还补充道，虚拟人技术供方首先要满足企业的现实需求，因为无论是从实际功能，还是营销功能，企业都比个人的付费意愿更强烈。

生产端，降本增效

一个值得行业欣慰的好消息是，AI的技术进步驱动了虚拟人生产成本的降低。不论对功能型还是身份型虚拟人，都是利好。

打造一个虚拟人，主要包括建模、驱动、渲染三个环节。AI大大降低了建模和驱动环节的成本。

建模，就是通过手绘、CG建模或者AI的方法，制作出虚拟人的形象。传统方法，需要设计师在 3D 软件中「捏」出一些形象。

以往，产品经理和美术设计只能通过文字、网络图片参考，沟通形象需求，难免存在信息失真。假如对制作效果不满意，只能多次返工。

现在不然，Midjourney、Stable Diffusion 等软件已经实现低成本的 2D 图像生成。

AI基于已有素材和指令，智能生成一个形象，让每一个需求都有了更具体的对照。也就是说，AI大大降低了制作虚拟人形象的沟通和试错成本。

3D 建模虽然无法完全由AI完成，但 MetaHuman 等工具则可以通过输入照片或视频建立高保真的虚拟人，并直接在 Unreal Engine 中应用。

驱动，是让虚拟人活动起来的过程。它可以由「中之人」驱动，也可以由AI驱动。中之人是指，在虚拟人的外衣下，提供声音、动作的真人演员。

例如，若想在产品解说的视频中应用虚拟人，系统会基于NLP识别用户输入的脚本，其中的文字作为输入给到模型，可以触发一些关键的动作。

如果你对这些概念没有强烈体感，可以通过金钱投入量级更直观地感受。

虚拟人直播带来的启示

更直观的功能型虚拟人应用，是在直播场景。

不论站在哪一方，虚拟人都是刚需。

此外，「带货过品」的套路成熟，商品的讲解流程标准化，虚拟人似乎完全可以胜任。

然而，现实却没有那么美好。

虚拟人主播很难让观众产生真正的信任，尤其是涉及到产品测评，美妆、服饰等常见商品的展示，虚拟人显得有点力不从心。

目前，虚拟主播的功能，更多是基础性的产品介绍，或者给真人主播做「花瓶」，引起观众的好奇。

从直播这一场景的「虚拟人」打工状态管中窥豹，作为用户，我们不难感受到宣传中的科幻感与技术落地的现实之间的差距。

但技术的进步永远是这样，可用性的提升并非一日之功。

毕竟，能持续向观众发送商品介绍的简单念白，也聊胜于无。

历史搜索全部删除

热门搜索

虚拟人艰难落地

还是实用价值赢了

生产端，降本增效

虚拟人直播带来的启示

快手

评论

虚拟人艰难落地

还是实用价值赢了

生产端，降本增效

虚拟人直播带来的启示