AI主播跨界“唱歌”,手语表达不输真人

币游国际官方

2021-07-08

□克莉斯汀近日,搜狗联合中国聋人协会共同推出手语数字人版公益MTV《万疆》,全球首个手语AI(人工智能)合成主播“小聪”跨界演绎、用“唱手语歌”的形式对《万疆》进行二次演绎,携手广大听障手语使用者一起“唱红歌”。

用手语“唱歌”本来就让人觉得很奇妙,而这次的MTV主角之一还是一位AI合成主播,更让人十分好奇。 虽然“小聪”号称是今年5月才刚亮相的“全球首个手语AI合成主播”,但在它之前,其实已有不少AI主播亮相了,比如2019年参与了“两会”新闻播报的AI主播“新小浩”与“新小萌”;而早在2018年的一场智能视频高峰论坛上,爱奇艺自制虚拟偶像“奈奈”,也是一位AI手语主播。

虚拟偶像从最初唱歌、画画、写诗,如今终于有了一项很务实的工作:AI主播,而且还可以是手语主播。 它们的工作能力正逐步升级,让人惊艳。 AI主播可能将“遍地开花”AI主播已不仅仅是在抖音等生活频道中的画画、写诗的视频主播,它们甚至已开始正式参与新闻播报。 2018年底至2019年初,搜狗与新华社联手,陆续发布了两位全仿真智能AI主持人“新小萌”和“新小浩”,它们是以新华社的真人主播屈萌和记者邱浩为原型打造的3D形象,还突破了过去“坐着播新闻”的形式,升级成结合肢体动作的“站立式播报”。

它们在2019年参与当年全国“两会”新闻报道时大放光彩,不少人都以为它们是真人主播。 尤其是“新小浩”与记者邱浩的“连线”互动,让人大呼“精彩”“有趣”。 这种人工智能与新闻采编深度融合的最新突破成果,一亮相就引发了全球关注。 国外不少媒体都对此有过报道,称它们“几可乱真”。

AI合成主播不仅能够24小时不间断地工作,还能在突发报道中快速生成新闻视频,这不仅提升电视新闻的制作效率,提高报道时效和质量,还降低了电视新闻的制作成本。

有媒体甚至指出,虽然它们仍需要有人类编辑来整理播报内容,但它们有望替代普通的电视新闻播音员。 几乎是同步亮相的还有爱奇艺AI手语主播“奈奈”,它以二次元形象出现,通过语音识别并自动转换成手语表达的形式在现场播报新闻,引爆了“2018中国网络视听大会”。 它不仅展示出AI即时手语翻译的能力,也以3D立体形象丰富可定制的特点,让这项技术能够适应不同场景的需求。 不久,“奈奈”的升级版出现,它改头换面以适用于正式场合的真实人物形象登场,并通过一个手语学习APP开始实现普通应用,并同时在爱奇艺视频频道和新闻频道等合作中出现,也发挥出它应有的作用。 紧接着,AI新闻主播“新小微”、AI气象主播“雅妮”、俄罗斯语AI主播、社区“AI法官”、平安惠普的AI合成“互动客服”等纷纷登场。

最近在新华社、央视等媒体上还出现一位柳岩同款的AI主播,它可以在同一条新闻中无缝切换多种方言,即使是柳岩本人都不会的方言也一样妙语连珠。 如今又有了这位“唱红歌”的AI手语主播“小聪”亮相,一首《万疆》的跨界表现,就让人惊艳。 这意味着,不管你是否能接受,这些各怀绝技的AI主播已在一步步走进我们的生活,大有“遍地开花”之势。

AI手语主播干的是“技术活”AI主播的确带给我们不少新鲜感,方言版的柳岩款AI主播甚至自带喜感。 而AI手语主播的出现,则带来了更多务实价值。

手语是听障人士与外界进行交流以及获取信息的主要方式之一,但日常生活当中这种表达方式并不常见。

我们在看电视、用手机刷视频时,其实也很少见到有同步的手语翻译。 开发AI手语主播,需要更多的技术支持。 AI手语主播的工作原理是通过自动语音识别技术(ASR),准确识别视频中的语音并转换为文字,然后通过自然语言交互处理技术(NLP),将文字转换为手语内容,再通过虚拟AI人物进行输出。 这个过程说起来简单,但绝对是个“技术活”。 以“小聪”为例,这位立足于搜狗领先的“数字人”技术体系的AI合成主播,便集成了超写实3D重光照扫描还原、3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动、表情肢体手势捕捉等多项领先AI技术,最终实现逼真度高、动作自然生动、手语表达准确的3D数字化主播的视频内容。 其中有一个细节值得留意:手语表达时的思维方式、顺序都跟语音表达均不相同。 比如我们说“开车不喝酒”时,手语中的表达却是以“开车”“喝酒”“不许”这样顺序排列的三个手势。 如果按照正常的语序来编排手语表达,就有可能导致绝大部分听障人士只能理解不足60%的内容。 而现在的AI手语主播们却已注意到这个细节,它们的表现显然已符合一名合格的手语翻译的要求。 经测评,“小聪”的手语表达对于听障人士来说,已能达到85%的可懂程度,相较于纯文字的信息传递也有了明显提高。 在《万疆》MTV中,可以看到“小聪”标准到位的手语肢体动作、比拟真人的细微表情,它准确演绎出了歌曲中“家国自豪”的澎湃情感,这对于一位数字人主播来说,在手部动作、面部表情、口动唇动准确表达程度等方面都要求颇高。 相信它还可以在更多公共服务、特殊教育等场合下发挥自己作为手语主播的作用。 科技为人赋能,技术的终极目标还是人文关怀。 随着5G时代的加速到来和AI技术的持续发展,AI主播还将给我们带来无限的应用想象,不妨拭目以待。