以下是演讲实录:
陈康:大家好,我是来自网易互娱AI Lab的陈康,目前负责互娱AI Lab沪杭团队,图形学、3D视觉和语音方向的技术研发和落地。很高兴有这个机会给大家分享一下我们部门从17年底成立到现在,在基于AI的美术资源生产方面做过的一些尝试。
首先,什么是美术资源呢?这在游戏行业其实是一个专有名词,也叫美术资产。
我们这边以《ob电竞》和《ob电竞》两款游戏为例:一个偏古风的、一个偏现代的,艺术风格上是有明显差异,但共同点是你在画面里看到的所有东西。比如说人物、人物上看到的衣服、远处的建筑、植物、甚至车辆,甚至界面上的这些按钮图标,其实都是美术同学在DCC软件或者游戏引擎中制作出来的,所以这些东西都属于美术资产。
ob电竞APP下载行业发展到今天,在美术资产制作方面已经形成了一套非常成熟的工业化、流水线生产的解决方案。
我们以我们部门的虚拟技术代言人、同时也是峰会的虚拟主持人i.F. 为例,给大家简单介绍一下常见美术资产的制作过程。
假设你作为一名策划同学,想要美术帮你制作一个这样的角色,你会怎么跟他表达需求呢?你可能会说你想要活泼可爱的二次元妹子、处于青春期的年龄段、可能性格有点呆萌……但这种描述其实都是很主观、抽象的描述。
比如都是二次元,《ob电竞》那种二次元和《ob电竞》那种二次元是有很大的差异。基于这种模糊的描述,美术是没法直接制作三维模型的。因为在这过程中肯定需要不停的迭代需求,甚至有可能推翻重做,所以在三维模型环节进行这种角色设计层面的迭代,成本是非常高的。
所以策划的需求一般会先给到原画师,原画师会首先把这些抽象的描述转化成具体的形象,所有形象设计层面的修改和迭代都是在原画阶段完成的,这边展示的就是i.F.的角色原画。
当然在设计过程中,原画师肯定会融入的自己理解,提出一些修改,因为在设计这个领域美术要比策划专业的多。比如IF这个形象,头上带的这个像兔子耳朵一样的耳机,就是原画同学自己设计出来的。因为我们的需求是制作一个青春可爱的技术代言人,现在就可以在保持角色可爱风格的同时,体现出一定科技元素。
角色的原画设定图完善之后,就会进入模型环节。模型师会参考这个形象制作三维模型和对应的材质贴图。这边对模型师的要求就是,制作完成的模型和贴图放到游戏引擎之后,最大程度能够还原原画设计的形象。如果是静态物体的话,一般这一步做完就结束了,后面就直接交给场景编辑师在游戏引擎中搭建游戏场景就可以了。
但是游戏角色的话其实他是要能动起来的,所以模型制作完成后还要交给绑定师架设骨骼、蒙皮、一些变形体,然后制作绑定控制器,也就是角色身上的这些奇怪的线圈和右边的面板。通过操纵这些东西,就可以驱动角色做出一些对应的动作。
绑定好的角色会交给动画师,动画师会采用动作捕捉,或者手动设定关键帧的方式制作动画资源。整个生产过程其实非常类似一条工业流水线,一环套一环。每一款成品游戏的美术资源都是由大量美术劳动力堆起来的,这一块的开销也一直是整个游戏研发成本的大头。
现在OB欧宝体育电竞官网也是越来越挑剔,游戏行业也变得越来越卷。比如现在的这些3A大作,如果不支持开放世界已经不好意思说自己是本世代游戏了。
那开放世界是怎么让你觉得有开放感的呢?其实简单说就是堆料、堆出足够多主线以外的内容,你就会觉得这个游戏有非常好的开放内容。比如说《ob电竞》、《ob电竞》这种级别的经典的开放世界沙盒游戏,地图动不动就几十平方公里,这种规模的地图你按照传统方式制作已经不现实。所以目前大量的程序化手段被应用到了游戏开发过程中。像程序化地形、建筑、植物这些都已经是很常见的做法了。
目前在游戏行业的整个趋势就是最大程度的利用程序化制作美术资源,那怎么来理解基于AI的美术资源生产呢?
其实简单说AI就是一种程序,所以我们做的工作本质上是在程序化生产这条主线下引入一些AI的技术手段,从而实现一些传统方案无法做到的效果。并不是因为说AI技术火了以后我们生造出来的一个方向,这个因果关系是需要大家正确理解。
下面我就给大家介绍一下,我们部门在原画、模型和动画三个方面做过的一些尝试。
首先是原画方面的,我们在这块做了两个辅助创作的工具。
第一个应用是对二次元角色的线稿进行自动上色的工具,并且可以生成多套不同的上色方案。主要作用是给美术在设计二次元形象时,提供一些色彩搭配上面的灵感。
第二个工具是人脸的生成和编辑工具,这个工具可以基于美术绘制的人脸线稿生成真实的人脸照片,并且允许对生成的人脸的一些属性进行编辑,这里展示的是对人脸的年龄进行修改后的结果。由于互联网上人脸是数据非常丰富的,人脸的结构相对也比较简单,所以目前这个工具是可以生成非常高清的人脸照片的。作为美术在设计一些写实类角色时,是可以参考这些AI合成的人脸进行二次创作。
当然,我知道很多同学对AI在原画方面是有更高的期待的。比如说利用GAN或风格迁移等技术直接生成游戏的场景原画,因为这也是AI技术最早出圈被大家知道的这一批应用。不过目前想要实际落地还是稍微有点困难的,倒不是说技术本身有什么问题,主要是因为游戏原画设计追求的不一定是真实,更多是一种特定艺术风格下的视觉表达。
我们随便找一幅游戏画面对比一下,这种图片跟日常照片是有明显区别的。在当前的数据条件下,想生成一个这种级别的AI模型还是比较困难。所以,如何让AI在原画设计方面发挥更多的作用,本身也是我们未来的重点努力方向之一。
接下来是模型方面,在这一块我们的主要工作围绕在人脸模型。
首先简单介绍一个基础设施叫三维参数化人脸模型,这是一个基于大量三维扫描得到的三维人脸数据制作出来的双线性模型,有脸型和表情两个维度。简单说就是任意给定一组脸型参数、一组表情参数,就会得到一个对应参数下的三维人头模型。
我们在18年时候,自己扫描并制作了一套高质量的三维参数化人脸。当时一共采集了500个中国人,里面男女各占一半,年龄段涵盖10-60岁,每个人扫描了7套表情,所以一共采集了3500个人头。在这块我们是投入了不小的成本的,这个工作我们在去年的游戏开发者大会GDC上也做过一次分享。
我相信很多从事三维人脸相关研究同学的对这个模型概念非常熟悉的,这是由一篇1999年的SIGGRAPH论文提出来的概念、专业名称叫3DMM,目前学术界其实是有一些很出名的开源3DMM数据的。
那我们为什么不直接用这种开源模型呢?主要有三方面原因:首先是因为版权问题,因为我们希望我们这套技术是真的能够在游戏产品能够用起来的。其次是因为精度的问题,因为这些开源模型的精度其实距离实际游戏的标准还是有不小差距的。我们早期做实验用的也是这些模型,但是美术同学对这些开源模型的人和质量是非常嫌弃,所以我们自己采集人头的时候,每一个人头后续都是发包人工精修过的,所以质量是很高的。
最后一个原因就是人种问题,因为这种开源模型一般都是欧美机构发布的,他们采集的对象也主要是欧美的高加索人种,你看你会发现这种明显的高鼻梁、深眼窝特点,一看就不是亚洲人。基于这些原因,我们果断决定自己制作一套这样的模型。
在AI领域,参数化人脸的主要作用是提供关于人脸的三维形状先验,所以制作好的参数化三维人脸模型,可以用于从二维照片中重建三维人脸模型。我们这套参数化人脸模型,在东亚人脸照片上取得非常好的重建效果。
当然,由于单视角照片会存在一些深度方面的缺失,很难还原类似鼻梁高度,眼窝这方面的特征,所以我们也开发了一套多视角的重建算法。如果条件允许的话可以拍摄演员的多张照片进行重建,这边大家可以对比一下,右边多视角重建结果对演员鼻子形状的还原程度,是要比单视角高非常多。
除了从照片中重建三维模型,这套参数化人脸还有一个更重要的应用,就是批量给游戏生成人头模型。如果游戏的人头资源标准跟我们库里的人头标准一致的话,就很简单了。可以直接在参数化人脸模型的参数空间采样,把采样模型给到游戏项目使用。
当然这种情况一般不太多,因为每个游戏都会有自己特定的需求,有一些游戏的角色甚至都不是传统意义上的人头,所以一个更常见的生成方式是对项目组的模型进行自动批量变形。简单来说就是把我们生成的模型,生成的模型相对于平均脸的变化迁移到项目组的模型上面去,这种迁移的变化可以是表情、也可以是脸型,并且所有变形都可以用项目规定的骨骼蒙皮来进行表达。
这是一组我们生成的结果。最左边是项目组提供给我们的角色模型,我们可以根据这个模型自动批量生成一批同风格。但脸型和五官有明显区别的模型,并且每个模型都可以生成一套表情。也就是说,项目组只需要做一个静态模型,我们就能自动批量生成很多绑定好的模型。这对这种追求千人千面的开放世界游戏其实是非常有价值的,可以以非常低的成本让游戏里的每个NPC看起来都不一样。
这是我们对两个Metahuman模型变形后的效果,从上面可以看到我们生成人头模型跟原始的资源标准是完全兼容,而且以这个变形质量生成的模型作为实际游戏的头模也是绰绰有余的。大家要知道,像Metahuman这种级别模型,一个头的成本,保守一点计算都要小几十万人民币,所以这个技术是非常有价值的。
为了进一步丰富我们的三维人头数据,我们也是搭建了一套自己的三维扫描实验室。目前是在杭州园区搭建了一个专门扫描人头的设备,左边是我们的设计图,右边是搭建完成后的一个实物。
这是一个正20面体,一共包含53台单反和150组定制led灯光,整套系统都是我们自己设计和搭建的,后续的话我们还会在网易的广州和上海园区,分别搭建一套更大的可以扫描全身的设备。
三维扫描的原理其实非常简单,简单说就是利用摄影测量算法,从多视角照片中计算人头的三维点云。这是我们系统扫描的一组样例,这个精度是可以对标国内外一线扫描服务供应商的,这是基于我们的扫描流程制作的一组表情基的效果。大家可以看到,扫描模型对演员面部细节的还原程度是非常高的。
刚才说我们这套设备是有150组定制的LED灯光,这组灯光也是我们花了很高的成本定做的。每一盏灯的开关和亮度是可以独立控制的。每一组灯光包含三个灯头,分别安装了一个普通无偏振的uv镜和两个偏振镜,这两个偏振镜相对于相机上安装的偏振镜方向,一个是平行的,一个是垂直的。
对摄影比较熟悉的同学应该很熟悉偏振镜的用法,这是一种很常用的uv镜,主要用于非金属物体表面的一些不必要的反射光,可以还原物体本身的颜色。
偏振镜的原理是什么的呢?中学物理大家就学过,光是具备波粒二象性,既是粒子、也是一种电磁波。而且光的振动方向与传播方向是垂直的,这种类型的波叫横波,所有的横波是具有偏振现象的。简单说光的偏振方向与偏振镜方向平行,那所有能量都会通过。如果是垂直的,那所有能量都会被过滤。
基于这个原理,我们可以给扫描物体一次拍摄8组灯光下照片,然后利用这8张照片就能算出物体表面的材质,也就是漫反射、高光和法线的信息。这8组灯光分别是4组平行偏振光和4组交叉偏振光,每一组里面都是首先所有灯光全部打开,然后是灯光亮度按照灯光在三维空间的坐标值递减,XYZ三个方向分别可以产生一组灯光。目前这套设备我们也是刚搭建完成,我们在人脸材质扫描方面我们刚刚起步,后续我们也会逐渐加大这块的投入。
最后是动画部分,这块是我们这几年工作的重心。前面其实有介绍过,美术资产一般在整个游戏研发总成本里面都是占最大部分。但是在这里面,动画一般又会占整个美术资产最大的一块。主要是因为原画、模型这些虽然也很贵,但大部分属于一次性开销,但动画是需要配合剧情持续产出的,高质量的动画,一分钟的制作成本就可以很轻松过万。
我们在动画这块首先是在光学动捕数据的清洗方面做了一些工作,光学动捕的原理其实很简单,就是在紧身动捕服表面设置很多标记点,通过多视角红外相机跟踪这些点标记点在三维空间中的坐标,然后根据这些坐标就可以算出来人体骨骼的旋转和平移信息。
当然自动算出的这些信息不可避免有一些错误,就会导致解算出来的骨骼动画可能有些异常,所以在实际的动捕过程流程中,会有专门的美术负责对动捕出来的标记点进行清洗。资深的动捕美术对这块都很有经验,一般首先直接看标记点的轨迹曲线就能知道出现了什么类型错误,需要怎么修改。这块也是目前动捕工作流中主要的人工工作量,18年时候育碧提出了一种算法通过AI模型来取代这个过程的,当时也是发表在了SIGGRAPH上。
因为我们19年时候投资了一家法国3A游戏工作室Quantic Dream,就是做底特律变人的那个公司,所以我们当时双方开始有一些技术合作。他们当时给我们提出这个需求,所以我们对这个工作进行了跟进。做了一年多以后,我们找到了一种精度更高的解决方案,也发表在了SIGGRAPH 2021上面。
目前这套算法我们已经以Vicon软件的插件形式,部署在了网易互娱和Quantic Dream的动捕工作流中。这里是一个例子,这是原始含噪音的标记点,闪来闪去的就是局部噪音,留在原地的那些点就是跟丢的那些点,这是暂时调用我们算法得到的清洗结果。
接下来要介绍的是几个工作是我们部门落地最多的项目,首先是一套基于普通单目摄像头的轻量级面部动捕系统。
基本原理就是利用前面我们介绍的那套三维参数化人脸模型,对视频中演员的脸型、表情头部姿态进行回归,然后把回归得到的系数重定向到游戏角色上就可以了。当然我们也会配合一些CV检测和识别模型,加强算法对眨眼、视线、舌头和整体情绪的捕捉精度。
这个项目是我们从18年的时候就开始做的,前前后后差不多有十位同事参与,这里面所有算法模块都是我们自己开发,打磨到现在已经是一套非常成熟的in-house面部动捕解决方案。
围绕这套算法,我们还打造了一整套的工具链,有实时的动捕的预览工具、有针对动捕结果进行离线调整和编辑的工具、还有Maya/Max里的动捕数据重定向插件。另外为了方便项目组接入面部动捕系统,我们还开发了一套专门适配我们算法的面部自动绑定插件。此外,核心算法我们还打包了全平台的sdk,在iphones 6s以上的机器,可以做到单核单线程实时。
这套系统在游戏里是有非常多的应用场景的,首先就是辅助动画师制作正式的游戏动画资源。相比于传统一帧一帧手k,采用动捕方案的制作效率是有明显优势的,而且只要演员表演到位,效果跟美术手k几乎看不出来区别。
其次,可以给营销同学快速产出一些面部动画素材,营销场景的特点是精度要求没那么高,但他的时效性要求很高,因为慢了就蹭不上热点了。我们这种轻量级方案,是非常适合这种场景的。比如短视频平台上某段视频火了,用我们这套工具可以非常快速的产出面部动画素材。
另外,因为我们整套算法是提供全平台的sdk的,所以也可以打包在游戏客户端里,给OB欧宝体育电竞官网提供一些UGC玩法。比如我们在一梦江湖游戏里上线的颜艺系统,可以让OB欧宝体育电竞官网录制自己的表情动画。
右边是我在B站上找到的一个视频,就是OB欧宝体育电竞官网系统录制的一段打哈欠的动画,然后传到了b站,传播效果非常好。最后,这套算法还可以支持一些虚拟主播的场景,比如第五人格秃秃杯电竞比赛的虚拟解说、云音乐look直播的虚拟主播,用的都是我们这套技术。
另外我们还配合高精度三维扫描设备,测试了我们面部动捕算法的在超写实模型上的效果。这个模型是我们自己雇了一个国外的模特扫描出来的,我们用模特自己的视频来驱动他自己的角色,这样可以更好的对比表情的还原度。这边是另外一组效果,这个模特是我们部门的一位同事,从效果上可以看到其实不管是扫描重建也好、还是面部捕捉也好,我们的技术都足够支持这种高精度的场景。
跟面部动捕类似,我们也做了一套轻量级基于普通摄像头的身体动捕系统,也是单视角和多视角输入都支持。原理跟前面的面部捕捉类似,就是利用一套参数化人体模型,来对视频中人物各个关节的骨骼参数进行拟合。同样也会配合一些cv模型来提升优化结果的一些合理性。这个项目我们也是打磨了两年时间,目前效果和稳定性都相当不错。
这是在冬奥结束之后,我们用这个技术给哈利波特项目制作的视频,当时也是很快冲上了微博热搜。如果按传统制作方式,这种营销策划案是不太可能实现的,因为需要找到能还原这套动作的演员,还要约演员和动捕棚的档期,一套下来没有6位数的开销和1个多月制作周期的话是很难完成。但是用我们这套AI的方案,成本可以忽略不计。
这个是更早时候我们跟《ob电竞》项目组合作的一段视频,大话的官网和B站上都能搜到。当时是请了B站舞蹈区的一位知名up主,用三部手机录了这套舞蹈动作,用我们的动作捕捉算法得出了动作,重定向到大话西游的游戏角色上整体效果是非常精美的。
这是最终成片的效果。
另外一个我们给《ob电竞》项目组制作的动画素材,只用了一个单目摄像头捕捉了身体和面部动作,并且只要拍得足够清晰,手指动作也是可以准确捕捉的。
除了继续视频输入以外,我们还做了基于音频输入生成动画的技术,比如从语音输入生成角色的面部和肢体动画,也是围绕这个技术做了一整套的工具链。这个技术我们也是做的很早,18年就已经在不少游戏里落地上线。但是当时做得还比较简单,只支持口型和几种简单的基础情绪。
后来我们也是做了持续的基础升级和迭代,增加了语音驱动头动、眼动、手动、面部微表情、还有肢体动作等等。这边展示下我们算法的最新效果,语音驱动身体部分的效果大家可以去看N.GAME峰会的虚拟主持人I.F.的动画,这边展示主要是头部以上的动画。
另一个从音频输入生成动画的工作是基于音乐生成舞蹈动作,这个工作目前在业界比较出名。我们是18年就开始做的,经过了几年的持续打磨迭代最终形成了一套落地方案,同样也是发表在了SIGGGRAPH 2021上。
会后我们还收到了SIGGGRAPH官方的采访邀请,采访内容发布在了SIGGGRAPH的官方博客上,现在很多机构都在跟进这个,详细的技术方案论文里有情景介绍,这里主要给大家展示这个技术的实际落地效果。
首先是二次元女团舞的效果。
这是一个韩舞的动画,这段动画也是网易cc直播年度盛典的开场舞蹈。
最后是我们用一些网络上热门歌曲所合成的舞蹈。
最后我们展示一下AI动画技术的全家福,这是我们去年圣诞节的时候用我们部门的虚拟偶像I.F.制作的B站互动视频,完整版大家在B站可以搜到的。这里面的所有动画都是我们通过AI技术生成的,这边给大家展示一下这段视频的幕后过程。
目前我们这套AI动画的解决方案已经是相当成熟了,在内部经过了大量项目的验证,目前也是在内部给网易各个项目组持续不断输出动作资源。
简单总结一下,从前面的介绍中大家可以发现,AI技术对程序化美术资源生成这个方向产生明显的促进作用的。而且根据我们的实践经验,在人脸人体的模型和动画方面,甚至可以在一定程度上取代一些初级执行向美术的工作。而且利用我们的AI方案普遍可以比传统方案提升5-10倍的制作效率,但目前想让AI从事一些更高级的工作还是比较困难,这也是我们未来努力的方向。
主要的难点还是因为高质量的数据比较稀缺,大家都知道数据是AI的核心,AI模型有多少能力其实很大程度上取决于人给模型多少有价值的数据。但是游戏资产的获取门槛其实还是很高的,这跟照片、语音、文字这种所有人日常都在生产的数据不太一样。比如在某个景点看到一个很有特色的雕塑,绝大部分人的反应可能是掏出手机,拍一张照片记录一下这个,但几乎不会有人掏出电脑现场建个模,这是不太可能发生的。
当然随着技术的进步,游戏资源的制作门槛肯定是越来越低的,而且像元宇宙这样的热门应用场景,本身也要求游戏厂商让广大OB欧宝体育电竞官网参与到虚拟世界的内容创造过程中来。所以我相信随着数据的持续积累,未来AI技术也是可以能从事一些更高级工作,这也是我们的努力方向。
以上就是本次分享的全部内容,谢谢大家!
如若转载,请注明出处:http://www.ashkeling.com/2022/04/480506