对话昆仑万维CEO方汉:昆仑ALL In AIGC,推出AI模型“昆仑天工”
ashkeling报道/最近一段时间,互联网行业最火的话题当属AIGC。
AI绘图、AI剧情等多场景的出现,让内容创作行业出现变革,因此随着AI的升温,许多游戏厂商都开始积极拥抱AI。
比如昆仑万维就多次公开表达了对AIGC的坚定看好,而在去年12月昆仑万维发布了AIGC算法与模型“昆仑天工”,今年2月,他们又宣布与OpenAI合作在Opera浏览器中植入AI,得益于全军出击向AI进发,昆仑万维的股价也由年初的14.41元涨至现今的超过50元。
4月6日晚,华尔街见闻举办了一场直播连线对话活动,邀请到了昆仑万维CEO方汉,ashkeling旁听了此次活动,听了听他对于AIGC的看法。
以下是对话实录,略有删节
Q:昆仑万维是国内领先的AI企业,未来昆仑万维将如何实现商业化落地,哪些领域有比较好的变现机会?
方汉:从商业化落地来看,我觉得目前业界可以分为两个方向,一个是大模型本身的底座,它应该是这一轮AI革命的基石。如果制作出一个比较好的中文大模型底座,在中国市场自然也能获得比较好的商业机会。
第二个方向就是面向B端与C端的应用层,ToB的应用层会比较容易理解,即降本增效,为企业降低成本给企业的效率带来提升。在C端我们可以看到这一轮AIGC让C端创作优秀内容的成本大幅下降、速度大幅提升、质量大幅提高,这样的话会形成新的,类似原来短视频平台一样的内容社区,因此我认为整个商业机会还是很大的。我们昆仑万维也会在大模型底座领域以及应用层,不断的尝试与开拓。
Q:AI在B端与C端的发展有什么不同?您如何看待这两大领域的成长空间?
方汉:一般来说,B端的企业生长速度是要比C端慢,因为C端用户量巨大所以增速相对较快,但在这一轮AIGC大浪潮中,我们可以看到针对C端主要是各种内容方向,端到端的内容创作工具,这种工具使用越简单、门槛越低,它能够获得的用户数也会成倍增长。
所以在C端的商业逻辑,AI工具使用方法要足够简单并且创作出的内容质量要足够高,那么在C端自然能够获得大批用户,从而形成大量的内容社区。
在B端,目前AIGC或者是通用人工智能其实与目前商业上的工作流要结合,还有着很多细节工作要做,在各行各业落地的时候,需要大量工程上的工作,哪一个企业能够先把一个行业的AIGC彻底打透,让这个行业里面的用户都认为这是一个标准,那么它获得的优势或护城河将会长期持续下去。
所以在B端,其实就是要针对行业深挖、打透,对于C端而言,就是制作出门槛足够低的内容创作工具,让用户能够更好、更快、更强的去创作内容,我觉得这两个商业逻辑有很明显的差异,相对来说C端的增长速度会更快一些。
Q:目前主流的AIGC商业模式有4种分别是调用量、SaaS订阅、增值服务以及解决方案,您认为未来AIGC主流的商业模式会向哪个方向发展?
方汉:这次的大模型与以往的SaaS模式、解决方案模式等不太一样,因为大模型本身是非常领先的,在国外目前最主流的仍是API调用次数来进行收费的商业模式,当然也有C端直接付费的模式,但是从长期来看,大模型本身还是通过生态来获取用户,因为一开始大模型是有很大的垄断地位的,但随着大模型的普及,必然是针对行业的解决方案能够让他在行业里获得足够多的用户。
所以,我认为这几种模式都会长期并存,前期或者对中小客户而言可能是按API模式,但对于行业的大客户,则一定是商业解决方案这种更为受行业大客户的欢迎。
Q:昆仑万维旗下有很多模型比如天工巧绘、天工乐府、天工妙笔、天工智码等,这些模型它们有什么不同?它们的特色是什么?
方汉:不同的模型解决不同的问题。当然,在预训练文本大模型这方面其实是一个通用人工智能模型,所以这几个模型的基石都是预训练大模型,在此基础上产生出的文本生成图像、文本生成代码以及文本生成音乐这几个方向,其实也是针对我们日常工作流中最常见的美术工作者、音乐工作者以及程序工作者的使用,而推出的行业子模型,这我相信也是将来大模型生态的经典形式,即一个大模型配上多个针对不同行业的子模型来协同完成工作。
当然,如果只做通用人工智能,那么从目前来看,预训练的文本大模型,仍然是目前最重要的基石模型。
Q:多模态是这一轮AIGC中最为关注的点之一,在您看来,图文视频这种跨模态的研发难点目前主要集中在哪里?
方汉:首先,我们人类手上最大或者说最准确的数据集仍是文本数据集,所以文本预训练大模型是增长最快的。
现在我们可以在网上抓取到的图片和视频也非常多,但是这些图片和视频大多数是未经标注的,也就是说它需要大量的工作进行标注,这其实是一件非常消耗人力成本的事情。
这就导致了,首先在数据上图像和视频的多模态大模型训练存在门槛,第二个门槛是,大家都知道图像和视频的容量都远远超过文本,需要的存储空间更大,同理可知我们理解一段文本需要消耗的计算能力,以及去理解图片和视频所需要消耗的计算能力,是完全不一样的。
打个比较简单的比方,训练一个GPT3的大模型与GPT4的大模型只需要1000张训练卡,但训练图片与视频的时候,可能就需要1万张训练卡,所消耗的训练资源是以十倍这样的量级往上增长。
Q:昆仑万维现在一直倡导开源模型,您怎么看待封闭与开源大模型的竞争?
方汉:这个我可以讲一段历史故事,大家都知道商业操作系统最早有很多家竞争者,但最后Windows胜出了,其也成为了世界上在客户端装机率最高的操作系统。但是在Windows之后,仍然有Linux这样的开源操作系统兴起,并成为了Windows的重要补充部分,它们也长期竞争。
到了移动时代,既有闭源的iOS也有开源的安卓,可以看到对于第三方厂商来说,或对于中小企业来说,使用开源的安卓系统是他们最优的选择。
长期来看,我认为开源大模型与闭源大模型之间,永远是一个相互补充并存的关系。而对于很多大企业而言,他们可能愿意使用闭源大模型,但对于中小企业而言,它一定是使用开源的大模型,然后进行自己的二次开发和改造,使用这种模型更能够满足他的业务需求。
所以我认为,对于有定制能力的企业来说,开源大模型是他们的最佳选择,对于没有定制能力的企业而言,闭源模型是他们能够拿到最好的服务。长期来看,这两种模型是互相补充、互相并存的。
Q:AI的投入成本是非常高昂的,您是如何看待AI高昂的研发成本,会有哪些方法节省高昂的计算费用?
方汉:首先高昂的计算费用应该来说是短期的情况,因为任何一个事情在刚出现的时候它的成本一定是最高的,但是当优秀的人才涌进这个行业后,它的成本就会迅速下降。
目前来看,主要会在两个方面下降,一个是算法底层的优化,也就是原先的训练方式是不是最优的,现在可以看到,在一些开源大模型出现后,有很多开源的工作者发布了自己的新方法,大家都在发布各种各样的方法去迅速降低训练、微调的成本,我认为在开源这一点上的表现是很明显的,我们业界会在软件上把这个训练成本给降下来。
因此我觉得训练成本和时间是有一个相关性的,随着时间的流逝,它的单位训练成本会逐渐下降,这是第一条路径。
第二条路径比较艰难,目前的训练主要还是基于美国Nvdia公司的训练卡,长期来看,国内有很多硬件公司在制作自己的训练卡,大家也知道国内有4~5家企业在这个赛道里。在国产训练卡出来后,基于国产训练卡进行成本上的优化与下降也是可以预期的。当然,这条路的速度可能没有软件快,是一条长而艰难的道路。
Q:您怎么看待行业云端与本地化这两条发展路线?
方汉:并不是任何情况下都需要1000亿或1万亿参数的模型,很多情况下,一个几十亿参数的小模型甚至记忆参数的小模型也能很好的完成工作。
长期来看,本地部署对于一些垂直行业以及中小企业的特定场景是非常必要的,不仅能降低成本,还能更加灵活的去应对业务场景。
而对于需要高质量以及大规模应用的时候,云端部署就成为了一个需求,所以我认为这两点并不矛盾,它们是长期互补的情况,而且各自适用的场景也不一样,就像既有公有云也有私有云,在海外市场公有云大于私有云,在国内私有云市场大于公有云市场,所以我认为这两者并不矛盾,可能也是一个长期并存的局面。
Q:对于大模型的安全问题,未来会有哪些解决方案?
方汉:这里我想说的是,为什么OpenAI的大模型取得了成功,其实是在之前,Facebook和谷歌都发布了自己的大模型,但是由于言论安全上的问题,他们的模型受到了群众的大力抨击,因而就往回撤了。
换言之,OpenAI的大模型取得成功,本质上是因为他们在言论安全上取得了很好的进展,可以控制大模型生产出有害的言论。
比如文本与训练大模型,自出生以来安全性就是研究的重点,人类有很多种方法能够控制住大模型,让它不生产出虚假或有害言论内容,而且这种自监管也会越来越完善。
所以长期来看,我觉得行业的安全性其实是非常有保障了,因为对这种言论安全的技术研究一刻也没有停止,而且进化速度也比较快,所以我觉得在可预见的未来,它起到的速度远远大于它的负面作用。
Q:未来昆仑万维的AI还会去赋能哪些应用与行业?
方汉:这个其实难以回答,因为它涉及到的行业太多了,我们可以用一个简单的判断条件来判断,当一项工作只在电脑里完成、且能完成闭环,那么这项工作或这个行业受AI的影响是最大的。
举个例子,用AI去玩游戏,因为玩游戏本身就是在电脑里完成的,但是如果牵扯到线下的生产制造、交通运输等,只要和线下发生一点关系,比如送外卖、拿快递等,这些行业受到的冲击就要小很多,因为AI目前来说最擅长的还是解决与电脑打交道的问题。
在电脑上主要通过哪些生产工具来完成工作,比如Office的自处理、表格、演示,然后Adobe公司的图像美术创作工具,还有一些给程序员编程的工具等,基本上编程、美术以及文本创作这几个工具组合起来能够完成的工作,基本都会受到AI的冲击。
目前来看,应用速度最快的仍然是程序员、美术以及文艺创作者,他们受到的冲击是最大的,但长期来看,所有在电脑里可以完成的闭环行业都会受到非常大的冲击,我们必须拥抱这个变化,让这个行业能够快速的升级换代。
Q:为什么大家很关注游戏与AI的结合,以及落地的进展?
方汉:因为游戏本身是一个娱乐产业,第二个就是游戏本身是对现实世界的模拟。
大家比较关心这个,我觉得可能是首先游戏产业的更新速度非常快,它也愿意拥抱像AIGC、通用人工智能这样先进的技术。其二,AI在游戏中的应用也能够去预测对简单世界的干扰以及对现实世界的改进。
所以我觉得大家关注游戏对于AIGC技术的应用也是很正常,因为只有游戏才是既需要文本,也需要图像,以及编程这三者,而这恰恰是目前AIGC工具最擅长的几个方向。所以大家都把AI在游戏中的应用,作为一个热点也是可以理解的。
Q:ChatGPT最早的应用其实是浏览器,昆仑万维旗下拥有Opera这样全球第三大浏览器,您认为未来AI与浏览器结合会出现哪些效果?或进行哪些AI的赋能?
方汉:浏览器本身实际是满足互联网长尾应用的重要平台,在移动互联网后,很多信息与工作都由超级App完成,但是有很多工作是没有办法通过超级App来完成长尾需求,这些需求在浏览器里就满足的很好。
而且浏览器与搜索引擎有着天然的结合,就是搜索引擎的重要入口,而目前文本预训练的大模型,其实有两个很大的问题,一个是输出内容的时效性,一般来说滞后于最新的信息进展,第二个就是输出内容的准确性是需要经过验证的,把预训练大模型同搜索引擎结合起来恰恰能够解决时效性与准确性的问题,这样的话预训练大模型同浏览器、搜索引擎的结合是一个非常完美的配合,所以我们非常看好浏览器与文本预训练大模型以及AIGC的结合,这是一个非常长期的方向,能够满足大多数的长尾需求。
Q:Opera和GPT结合后,这段时间里是否已经见到了如客户引流、用户浏览量增高等效果。
方汉:我觉得效果还是非常明显的,但因为合作时间比较短,所以具体的数据过一段时间才能给出来。但目前来看,我们从逻辑上来判断,这个需求的刚性程度是非常强的,通过浏览器来使用预训练大模型的能力,这是一个非常天衣无缝的结合,我们非常看好它的前景。
Q:很多人对昆仑万维的印象是游戏公司,但其实昆仑万维很早就在全球化互联网平台布局,您能否介绍一下公司的哪些业务与AI相关?
方汉:首先我们在上市前,的确是以游戏为主营业务,在上市后依托于游戏在海外进行了大量的开拓,已经逐渐转型为以内容、社交为主的综合性互联网公司,目前我们旗下有全世界第三大浏览器Opera,有全世界最受欢迎的音乐社交平台Starmaker,还有我们的传统游戏业务。
为什么我们会介入到这次预训练大模型的研发中去,这也和我们是内容公司有关,作为内容公司,我们会非常关注用AI来生成内容这方面的进展,因为这对于整个内容领域都可以算作是革命,所以在2020年6月份,我们就注意到GPT3这个大模型。我们当时就认为,这将是AIGC领域一个巨大的里程碑,因此当时我们也成立了团队追踪大模型训练的研发,在2022年的战略会上我们也提出,整个公司的方向是ALL In AIGC。
作为一家内容公司,我们一直非常关注AIGC的内容进展,同时也紧跟国际上的先进水平做我们自己的工作,总而言之,我们作为一家全球综合性的互联网公司,在AIGC上的投入是非常必要也是非常正确的。
Q:昆仑万维目前在多模态是否也进行了重点涉猎与布局?
方汉:如果仅仅是生成式多模态,我们早就有“文生图”“文生音乐”这方面的工作,但如果是多模态的预训练大模型,这应该是所有中国公司下一步的工作规划。
我认为目前很多人关注或在做的是文本预训练大模型的成绩,我觉得这个事情其实是一个后续发展、所以中国做预训练大模型工作的公司都需要经历的阶段,但目前说这个有点为时尚早。
Q:很多视频生成工具中会用到扩散模型,您是如何看待这个应用?
方汉:你说的这种应该是在图像领域这种叫Diffusion model,它实际上是取代了大家常用的GAN即对抗网络,它用来生成图片的时候,效果并不是很好,但当引入了Diffusion模型后,整个图片生成的进展可以说是一日千里,目前已经完全可以替代人类的工作,甚至比人类做的更好,这种分散模型已经成为文本生成图像公认的技术标准。
当然,我觉得在未来,有可能会出现新的模型来取代它,但目前分散模型仍然是最好的文本生成图像模式。而且它的应用方向非常广,所有我们原来需要美术完成的工作,基本上都可以通过这种分散模型文生图的AI辅助创作来解决。据我所知,中国很多出海电商都采用了这种分散模型来给他们生成电商广告图片,这个应用速度是非常惊人的。
Q:刚才提到的扩散模型也有一定的缺点,就是去噪过程中时间和内存的消耗很大让进程变慢,那它是否会影响大家对他的采用?
方汉:这个优化速度其实是非常快的,早期扩散模型可能需要的内存至少是8G以上,最新的优化速度,已经有人能在1G以下的苹果手机上复现这种扩散模型,任何一个技术出现后,大家对他的优化速度是非常快的。
对于扩散模型而言,生成速度不是它的痛点,它最大的痛点是可控性,即刚开始大家可以判断图片是AI画的还是人画的,比如手画的好不好,这个就是可控性的问题,但这些问题都在迅速的被解决,在斯坦福一个研究者提出了ControlNet后,图像生成的可控性已经得到了极大的提高。
所以说,随着技术的进步,一旦技术取得突破之后,那么针对这门技术的优化以及各种改进,在开源模式下迭代速度都是非常快的。我们可以看到,文本生成图像在短短不到6个月时间内,已经飞速迭代了很多功能,弥补了很多特性,可以说目前文本生成的可用性已经非常强了。
Q:您如何看到市面上存在的各种大模型,以及他们未来的发展方向,国内是否会出现大模型的商业竞争?
方汉:首先,任何一个领域都有商业竞争,这是毋庸置疑的。但大模型这个领域,我认为首先大家竞争的是谁是第一或谁是最好的通用大模型竞争,这是第一个竞争,这个竞争我认为最终会有两到三家最终胜出。
在通用大模型之外,针对各个行业的垂直大模型,针对各个场景的应用大模型,也会长期存在,针对特定场景优化的竞争也会非常多,所以我认为这个竞争是一个非常长期的局面。
而且大模型本身也在不断的迭代,从文本大模型到多模态大模型,我认为这个竞争会是一个长期持续的过程,先发者将会凭借着他们的先发优势在商业上获得很大的成功,后发者可能要付出更多的努力在算法层面做更多的优化,超过先行者的技术指标才会获得商业上的成功。或者是,在大模型尚未涉足的行业进行垂直的深耕细作,也会获得自己的商业回报。
总而言之,我觉得这个竞争是一个长期而紧张的过程,谁也不能躺在功劳簿上一劳永逸。
Q:目前已经进入到了AI时代,能否谈一下哪些公司未来发展潜力比较大?
方汉:人工智能对全行业都是特别大的影响,可能很难说哪个行业进步比较快,但我认为哪些行业的变革会比较大。
还是刚刚提到的那个标准,这个行业是不是完全在电脑上能够闭环的完成一部分工作,那么它受到的影响就会非常大,一旦行业与线下产生联系,比如生产制造、交通运输等,这种工业受到的影响相对较小,但是像互联网产业、内容产业受到的影响一定是最大的。
第二个判断标准是从技术难度上来看,这当中最好的是文本、其次是图像,再往下是视频和音乐,受影响最大的也是依次从文本到图像再到音乐、视频,内容领域影响最大的可能是文学创作,其次是动漫,再然后可能是短视频、长视频、电影电视等,随着技术的进步逐渐深耕。
Q:现在研发大模型的主要是巨头,体量比较小的公司在研发大模型上有哪些优势和劣势?该如何扬长避短?
方汉:体量小的公司,我认为一定不要盲目的求大求全,一定是要针对你最熟悉的行业、最熟悉的业务领域,去做大模型的定制和二次开发。
第二,因为现在开源的大模型非常多,基于开源的大模型做二次开发也是一个非常好的切入途径。
第三个,我认为对于中小企业而言,并不一定要盲目追求大模型的开发,而应该把大模型的应用放到自己的工作重心中去,这样其实可以在商业上获得更好的收益,同时在你获得更好的收益之后,也可以反哺你在大模型预训练方面的工作,我认为总体而言还是要实事求是、脚踏实地务实的看待这次竞争。
Q:从未来成本降低的角度来看,软件和硬件未来有哪些可取的、降本增效的方式?
方汉:软件本身属于人类的脑力劳动,我们可以看到,随着AIGC以及通用人工智能的出现,使得人类创作内容或人类脑力劳动方面,会出现很明显的两极分化,最有创造力的人处在顶端,剩下的大多数人可能会成为所谓AIGC操作员,使用AI来辅助自己进行工作。
这也是历史上重复出现过的,当汽车取代马车,那么所有的马车夫是不是全体失业?并没有,他们可能就要转去做汽车司机;在计算器出现后,是不是所有人不用去学数学了?大家可能还是要用计算器辅助,进行工作。
总而言之,我认为AIGC或者通用人工智能,只是人类进化史上发明出来的一个最新也是最重要的一个工具,人们怎样用这些工具来提升自己的能力与创造力去实现更多更好的工作,我觉得这一点是可以期待的。
如若转载,请注明出处:http://www.ashkeling.com/2023/04/514579