正在阅读:

“郭德纲”用英语说相声,AI语音技术该如何监管?

扫一扫下载界面新闻APP

“郭德纲”用英语说相声,AI语音技术该如何监管?

人们担心人工智能“变坏”。

文|IT时报记者 沈毅斌

编辑|钱立富 孙妍

“Let's be happy and that's it,don't overthink, overthinking is pointless, it's part of being human.”郭德纲面对镜头,用流畅的英文回答采访问题,从音色到口型、动作都看不出瑕疵。这就是自AI孙燕姿后,AIGC带来的“新玩法”。

近日,郭德纲英文说相声、泰勒中文采访、马保国日语配音等大量AI制作的明星语言翻译视频在抖音、B站等平台爆火。与之前AI孙燕姿不同的是,这次使用的是公开视频,不仅做到了声音克隆,连口型、字幕、动作的配合都达到一致。

在很多人对这一“新玩法”兴致盎然的同时,一些播音行业从业者却感受到危机。“虽然不至于很快被取代,但随着AI语音技术的发展,类似AI读书这样的工作可能就不需要真人了。”播音从业者小尧(化名)表示。

01 “我们可能被取代”

如今,AI语音技术已经在各大App上广泛使用,除了喜马拉雅、蜻蜓FM等之外,很多读书软件也都具备听书功能。

《IT时报》记者打开微信读书App,大部分书籍已具备听书功能,用户可以选择AI男声、AI女声、AI中年男声等多种音色。若听一些历史类、经济类等不需要太多感情色彩的书籍,AI声音和真人声音听起来基本没有差别。

这也是小尧最担忧的地方。他告诉记者,除了日常体育解说工作外,自己平时还会接一些兼职,例如广告配音、有声书平台读书等。如在广告配音中,经验丰富的播音员每个字能拿到0.5~1元的报酬,而新人播音员每个字只能拿到0.1元,小尧录一分钟200字的广告能拿到50元左右。

有声自媒体平台则按照小时计算报酬,新人播音员每小时能拿到80元左右,资深播音员或与平台达成合作的播音员,每小时可以拿到200元左右报酬。此外,平台还会根据播音员节目的收听率、订阅量、推广度等进行奖励。

针对AI郭德纲背后运用的HeyGen工具,UP主“赛博法师”接受媒体采访时透露,HeyGen分为年付和月付,月付最低29美元,折合人民币200元左右,其中包含15分钟生成时间,生成时间越长,价格越高。另一家制作AI换声的公司的客服人员介绍,AI换声视频价格为每秒3元,最少30秒。若以30秒说60个字来计算,那么一个字的价格需要1.5元。

对比之下,同样的价格人力能配音更长时间,成本也相对较低。但小尧认为,“当AI技术成本比人力成本低时,我们很可能被取代,尤其对于新人播音员。”

蜻蜓FM相关负责人接受媒体采访时也表示,AI语音是整个行业都须顺应的技术潮流,大规模应用只是时间问题。目前,业内在开发更加成熟的AI语音技术,配合其深度学习能力,加入情绪、语气、音色等参数,更加细腻的声音表现将会带到演播中。

因此,解说工作成为小尧今后重点发展方向。相比配音、读书等照着稿子读的播音工作,解说需要根据现场情况及时做出反应。尤其是在体育解说中,赛场形势瞬息万变,解说员不仅要有独家风格体现专业性,还需要调动观众的情绪。“这样以情绪情感为主的播音工作是AI永远无法取代的。”小尧说道。

“AI语音一直是我们的反面教材,我也不鼓励学生去使用。”上海体育大学体育解说讲师李人杰表示,在任何行业,AI都可能替代简单重复的工作。在他看来,播音工作是播音员通过理解将文字稿以声音形式呈现给听众,对每个字的重音、情感等细节处理就是二次创造的过程。因此,想要不被取代,就需要在配音或读书工作中注入解说员更多的情感,体现出创造性和艺术性。

02 能检测出70%“AI郭德纲”

除了声音克隆外,让网友们最为震惊的还是视频中郭德纲说英语时,口型与字幕的完美契合。

“这是口型驱动AI合成技术,属于AI合成技术下的一条分支,底层逻辑是一样的。”北京瑞莱智慧科技有限公司高级产品经理张天奕告诉《IT时报》记者,口型驱动AI技术一般会用到两种方案,一种方案相对传统,即AI寻找语句发音中的元音字母,将口型与元音发音进行映射,最终接起来实现平滑转换;另一种则是从深度学习角度出发,AI会通过对语音和文本来计算出各个音节所对应口型特征的关键点,生成每一帧的图像后再合成视频。

其实,口型驱动技术并不是今年的“新品”,许多外国影片引入国内时,会让角色对应中文口型。如2015年上映的《功夫熊猫》,主创团队就透露,影片按照中文台词为每个角色都制作了相应的口型。2019年,国外多个研究团队还推出了一套算法,能捕捉人物讲话时嘴部动作,并生成新视频。

随着AI技术越来越成熟,合成视频越来越难辨真假,“对抗AI”的检测工具就变得十分重要。张天奕介绍,从此前的AI换脸来看,瑞莱Deep Real检测平台在检测过程中主要是对比脸部五官、发型、背景等较为直观的特征,其中对戴眼镜替换成不戴眼镜的人脸检测较为明显。而对于口型驱动AI技术,注重的是牙齿、嘴唇运动等局部检测,更多细节也意味着检测面临新挑战。

“我们测试了一下,目前瑞莱Deep Real检测平台对口型驱动AI的检测成功率大概在70%。”张天奕表示,想要攻破最后的30%还需要通过大量样本测试,针对性地去寻找“AI郭德纲”独特的轨道特征。

03 全球需要共治AI

11月7日,《IT时报》记者登入HeyGen时发现,网页已经打不开了。据其他使用者介绍,免费试用的用户可以上传一段不超过1GB大小的视频,但上传视频时已有3万多人在排队,想要跳过排队就只能付费。

上海大邦律师事务所高级合伙人、知识产权律师游云庭曾发文表示,Heygen提供的是面向用户的一对一视频翻译转换服务,网站并不会向公众发布转换后的内容,所以Heygen的知识产权侵权风险较小。但用户用Heygen将他人的讲话视频生成了翻译后的内容发布到网上,就需要获得授权。比如某人上传了郭德纲的相声视频,就需要取得郭德纲的肖像权、声音权的授权,相声视频的录像制作者权和相声文字内容版权授权,缺少任何一个都可能涉嫌侵权。

不只是侵权风险,生成式人工智能的快速发展也让人们产生“危机感”。11月1日,在英国召开的全球首届人工智能安全峰会更是体现出世界各国对AI治理的重视。在峰会上,全球28个国家和欧盟一致认为,AI对人类构成潜在的灾难性风险,并发布全球第一份针对人工智能新兴技术的国际性声明《布莱切利宣言》,旨在关注对未来强大人工智能模型构成人类生存威胁的担忧,以及对人工智能当前增强有害或偏见信息的担忧。

马斯克在这次峰会上表示:“人工智能很可能成为一股向善的力量,但它变坏的可能性并不是零。”

中国科技部副部长吴朝晖表示,发展人工智能应当积极倡导以人为本,加强技术风险管控,在相互尊重、平等互利的原则基础上,鼓励各方协同共治。

排版/ 季嘉颖

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

“郭德纲”用英语说相声,AI语音技术该如何监管?

人们担心人工智能“变坏”。

文|IT时报记者 沈毅斌

编辑|钱立富 孙妍

“Let's be happy and that's it,don't overthink, overthinking is pointless, it's part of being human.”郭德纲面对镜头,用流畅的英文回答采访问题,从音色到口型、动作都看不出瑕疵。这就是自AI孙燕姿后,AIGC带来的“新玩法”。

近日,郭德纲英文说相声、泰勒中文采访、马保国日语配音等大量AI制作的明星语言翻译视频在抖音、B站等平台爆火。与之前AI孙燕姿不同的是,这次使用的是公开视频,不仅做到了声音克隆,连口型、字幕、动作的配合都达到一致。

在很多人对这一“新玩法”兴致盎然的同时,一些播音行业从业者却感受到危机。“虽然不至于很快被取代,但随着AI语音技术的发展,类似AI读书这样的工作可能就不需要真人了。”播音从业者小尧(化名)表示。

01 “我们可能被取代”

如今,AI语音技术已经在各大App上广泛使用,除了喜马拉雅、蜻蜓FM等之外,很多读书软件也都具备听书功能。

《IT时报》记者打开微信读书App,大部分书籍已具备听书功能,用户可以选择AI男声、AI女声、AI中年男声等多种音色。若听一些历史类、经济类等不需要太多感情色彩的书籍,AI声音和真人声音听起来基本没有差别。

这也是小尧最担忧的地方。他告诉记者,除了日常体育解说工作外,自己平时还会接一些兼职,例如广告配音、有声书平台读书等。如在广告配音中,经验丰富的播音员每个字能拿到0.5~1元的报酬,而新人播音员每个字只能拿到0.1元,小尧录一分钟200字的广告能拿到50元左右。

有声自媒体平台则按照小时计算报酬,新人播音员每小时能拿到80元左右,资深播音员或与平台达成合作的播音员,每小时可以拿到200元左右报酬。此外,平台还会根据播音员节目的收听率、订阅量、推广度等进行奖励。

针对AI郭德纲背后运用的HeyGen工具,UP主“赛博法师”接受媒体采访时透露,HeyGen分为年付和月付,月付最低29美元,折合人民币200元左右,其中包含15分钟生成时间,生成时间越长,价格越高。另一家制作AI换声的公司的客服人员介绍,AI换声视频价格为每秒3元,最少30秒。若以30秒说60个字来计算,那么一个字的价格需要1.5元。

对比之下,同样的价格人力能配音更长时间,成本也相对较低。但小尧认为,“当AI技术成本比人力成本低时,我们很可能被取代,尤其对于新人播音员。”

蜻蜓FM相关负责人接受媒体采访时也表示,AI语音是整个行业都须顺应的技术潮流,大规模应用只是时间问题。目前,业内在开发更加成熟的AI语音技术,配合其深度学习能力,加入情绪、语气、音色等参数,更加细腻的声音表现将会带到演播中。

因此,解说工作成为小尧今后重点发展方向。相比配音、读书等照着稿子读的播音工作,解说需要根据现场情况及时做出反应。尤其是在体育解说中,赛场形势瞬息万变,解说员不仅要有独家风格体现专业性,还需要调动观众的情绪。“这样以情绪情感为主的播音工作是AI永远无法取代的。”小尧说道。

“AI语音一直是我们的反面教材,我也不鼓励学生去使用。”上海体育大学体育解说讲师李人杰表示,在任何行业,AI都可能替代简单重复的工作。在他看来,播音工作是播音员通过理解将文字稿以声音形式呈现给听众,对每个字的重音、情感等细节处理就是二次创造的过程。因此,想要不被取代,就需要在配音或读书工作中注入解说员更多的情感,体现出创造性和艺术性。

02 能检测出70%“AI郭德纲”

除了声音克隆外,让网友们最为震惊的还是视频中郭德纲说英语时,口型与字幕的完美契合。

“这是口型驱动AI合成技术,属于AI合成技术下的一条分支,底层逻辑是一样的。”北京瑞莱智慧科技有限公司高级产品经理张天奕告诉《IT时报》记者,口型驱动AI技术一般会用到两种方案,一种方案相对传统,即AI寻找语句发音中的元音字母,将口型与元音发音进行映射,最终接起来实现平滑转换;另一种则是从深度学习角度出发,AI会通过对语音和文本来计算出各个音节所对应口型特征的关键点,生成每一帧的图像后再合成视频。

其实,口型驱动技术并不是今年的“新品”,许多外国影片引入国内时,会让角色对应中文口型。如2015年上映的《功夫熊猫》,主创团队就透露,影片按照中文台词为每个角色都制作了相应的口型。2019年,国外多个研究团队还推出了一套算法,能捕捉人物讲话时嘴部动作,并生成新视频。

随着AI技术越来越成熟,合成视频越来越难辨真假,“对抗AI”的检测工具就变得十分重要。张天奕介绍,从此前的AI换脸来看,瑞莱Deep Real检测平台在检测过程中主要是对比脸部五官、发型、背景等较为直观的特征,其中对戴眼镜替换成不戴眼镜的人脸检测较为明显。而对于口型驱动AI技术,注重的是牙齿、嘴唇运动等局部检测,更多细节也意味着检测面临新挑战。

“我们测试了一下,目前瑞莱Deep Real检测平台对口型驱动AI的检测成功率大概在70%。”张天奕表示,想要攻破最后的30%还需要通过大量样本测试,针对性地去寻找“AI郭德纲”独特的轨道特征。

03 全球需要共治AI

11月7日,《IT时报》记者登入HeyGen时发现,网页已经打不开了。据其他使用者介绍,免费试用的用户可以上传一段不超过1GB大小的视频,但上传视频时已有3万多人在排队,想要跳过排队就只能付费。

上海大邦律师事务所高级合伙人、知识产权律师游云庭曾发文表示,Heygen提供的是面向用户的一对一视频翻译转换服务,网站并不会向公众发布转换后的内容,所以Heygen的知识产权侵权风险较小。但用户用Heygen将他人的讲话视频生成了翻译后的内容发布到网上,就需要获得授权。比如某人上传了郭德纲的相声视频,就需要取得郭德纲的肖像权、声音权的授权,相声视频的录像制作者权和相声文字内容版权授权,缺少任何一个都可能涉嫌侵权。

不只是侵权风险,生成式人工智能的快速发展也让人们产生“危机感”。11月1日,在英国召开的全球首届人工智能安全峰会更是体现出世界各国对AI治理的重视。在峰会上,全球28个国家和欧盟一致认为,AI对人类构成潜在的灾难性风险,并发布全球第一份针对人工智能新兴技术的国际性声明《布莱切利宣言》,旨在关注对未来强大人工智能模型构成人类生存威胁的担忧,以及对人工智能当前增强有害或偏见信息的担忧。

马斯克在这次峰会上表示:“人工智能很可能成为一股向善的力量,但它变坏的可能性并不是零。”

中国科技部副部长吴朝晖表示,发展人工智能应当积极倡导以人为本,加强技术风险管控,在相互尊重、平等互利的原则基础上,鼓励各方协同共治。

排版/ 季嘉颖

本文为转载内容,授权事宜请联系原著作权人。