ob电竞·(中国)电子竞技平台

ob电竞·(中国)电子竞技平台

ob电竞

ob电竞

语音AI“七声Nina”秀神技,OB欧宝体育电竞官网在游戏中“化声”美少女、碾压变声器

相信大家对DeNA并不陌生,但大家所熟知的形象或许是那个手握大量动漫IP,带来无数漫改手游的DeNA,却未必知道DeNA在AI领域也有非常深的造诣。

图中为DeNA x AI的部分研究

DeNA x AI部门的研究业务甚广,比如多功能水坝拦截水量的预测与高效使用、煤火电厂燃料运用最大化、摄像机图片分析、制药等。分别涉及了声音合成、深度学习、人像识别、人物追踪、数据科学、计算机视觉等等技术。

5月12日,DeNA公布了变声AI“VOICE AVATAR 七声Nina”(下简称七声Nina),AI能够将用户的声音转变为美少女的声音。产品仍在开发中,能够在电脑端与手机端通过浏览器体验该产品。

七声Nina的拟人形象。声优高田忧希为其提供了声音样本。

“七声Nina”的工作原理

简单来说,是AI对于人声信息进行提取后,经过计算重新输出语音。但是七声Nina与普通的变声器有根本性的区别。

变声器的原理是改变音频的音色与音调,从声音工程的角度上改变人声,根据调试的情况,可以变成输出各种声音,但变声器并不进行人声的识别,并且变声往往并不彻底,会留下男性声音的痕迹。

而七声Nina这一的变声AI需要对人声进行识别,提取关键信息后通过自身程序输出声音,其中并不涉及音色和音调的改变,输出的声音只属于七声Nina,由于输出的音源就是少女的声音,自然就不会有男性声音的痕迹。而这一过程需要大量的计算。

研发团队当前的方向,是进一步优化AI的情感表现、喜怒哀乐,将七声Nina的变声功能训练的更为自然。根据DeNA Enginner’s Blog的说明,AI通过PyTorch进行训练,运用了Serverless、Cold Start、FastAPI、google-cloud-firestore、Hypercorn等技术。

DeNA此次公布七声Nina,正是希望通过这次试行,让AI通过深度学习进一步积累技术经验,向下一阶段进化。

这是虚拟主播wakaba对七声Nina变声的实机演示。

可以看到,虽然眼下还有一些瑕疵,比如说话意群之间有些迟滞、部分声音仍比较机械,在说话人语速过快的时候,AI难以捕捉完整的信息,转换出的语句存在意群的缺失,但总体已经足够让人惊喜,发音算得上清晰,也能感觉到语气和感情变化。相信伴随着深度学习,七声Nina会越来越精准、生动。

化“声”美少女,“七声Nina”到底满足了哪些需求?

七声Nina的主页上表示产品适用于游戏语音、网络直播、线上约会、视频会议等场合。DeNA称产品理念为“声音的配饰”,希望消除人们生活中各种各样的障碍。

部分日本网友的评论

日本社会中,人们对于社交压力十分敏感,对于个人隐私也更为注重,因此不少人有这样的变声需要。日本各界人士都发表了看法。

网友@nanaha_redstar表示,日益成熟的变声技术能够帮助那些使用美少女人设直播,却无法出声的男性Youtuber。而“声音的配饰”这一理念非常合他心意,能够想象将来使用该功能解决各种生活障碍。

声优小岩井小鸟说,没想到人声AI的声音高出预期的自然,仅在短短几年之间,变声技术就进步了如此之多。

note.com的CXO深津贵之则表示,内容转换的精准度非常高。本来只需要用来变声即可,但DeNA却在AI互动方面也下了功夫,有趣的互动让他一下子喜欢上了产品,觉得试用过程非常愉快。他认为变声技术是今后不可或缺的技术,非常期待其发展。

然而ashkeling认为,即使抛开上述需要,这样的变声AI也一定大有其市场。不止在日本,在全球都能流行,只因人类本能上就存在着一种角色扮演的愿望,这也是我们之所以对小说、电影、游戏等乐此不疲的原因,因为它们展现了一种不一样的人生,或许并不是人人渴望代入到其他故事中,但每个人一定都有过从当前生活中抽离出去的念头。

微博疯转五万余次,每个人心中都有表演欲和整蛊欲

不久前,博主“姜峰真的苟”女装并使用伪音和兄弟吃海底捞的视频破圈大热。所谓伪音,是指男性会运用女性声线。这足以说明每个人对于这类整蛊和表演的狂热喜爱。

如果说线下尚有重重限制,那么线上的人们已经卸除大部分的束缚。无数网游和单机中,操作女性角色的屏幕背后往往是堂堂八尺男儿,这种现象已经屡见不鲜,大家应该和ashkeling都一样感同身受。在我们用“人妖号”对这现象进行调侃的同时,它却反映了大家在网络上忘却现实,打破枷锁的诉求。如果有朝一日像七声Nina这样的变声AI达到了足够的完成度,想必“双兔傍地走,安能辨我是雄雌?”的网络环境一定会成为现实。

声音AI相关的技术在多个领域有极大价值

ashkeling此前就报道过不少与声音相关的AI技术。

其中,英国的Sonantic推出了“世界上第一个会哭的AI”——Faith,主打感情表达。用户能够使用它来为作品配音,对于演绎上不满意的台词,可以通过Sonantic进行调整,主攻的是AI配音方向,用以帮助开发者节省成本。

而英特尔公布的“Intel Bleep”技术,旨在通过AI与硬件结合的方式过滤游戏中的不文明语音,让OB欧宝体育电竞官网在在游戏实时聊天中避开来自其他人的脏话和骚扰,主攻的关键词屏蔽方向,用以提高用户体验。

亚洲方面,韩国的Supertone通过语音系统合成了已故的韩国知名歌手金光石的歌声,乃至于连他的家人都觉得与真人无异。这一技术不仅对于许多抱憾的歌迷而言是莫大的幸福,试想这一技术更进一步,那么至少从声音面上我们就能带回故人,或许对于部分人群的心理治疗有莫大的帮助。

而本次公布的变声AI,虽然尚未成熟,但它不止将会解决日常生活中各种特殊情景的发声障碍,更将能够满足人们个性上的追求。唯一遗憾的是,目前还没有女生转到男性声音的AI,不过有七声Nina投石问路,想必后续发展不会太困难。

除上述ashkeling报道过的技术之外,还有大家日常生活中一直使用到的Siri等声音AI技术,声音AI技术已经融入了我们的生活之中。

可以看到,不论是关键字屏蔽,再现人声,或是声控系统、变声等问题,要想追求大范围的应用、良好的效果,必须依靠AI技术解决,且这些问题背后都指向了某一人群的核心需求,都是能够改变业界、甚至是造福社会的技术,是业界不容忽视的领域。

如若转载,请注明出处:http://www.ashkeling.com/2021/05/440815