人均AI大手子不是梦,真正可商用的开源AI大模型Dolly 2.0来了!
任何人都可因任何目的使用、修改或扩展这个数据集。
【ashkeling专稿,未经授权不得转载!】
ashkeling报道/ChatGPT蹿红之后,不只自己红遍全球,连带着也催生了大语言模型的崛起,巨头们都想要在红到发紫的市场分一杯羹。
尽管OpenAI自GPT-2之后就不再开源,但为了不被OpenAI母公司微软赢家通吃,前不久巨头如Meta,也将自家大语言模型LLaMA开源,并很快带动了一批由高校主导改进的大语言模型的面世,比如Alpaca、Koala、Vicuna等等。
但商业毕竟不是做慈善,LLaMA的开源也有些扭捏——由于使用了限制商业用途的数据集,对LLaMA及其改进模型的使用,都被限制在学术研究的范围内。Alpaca等模型相当于给LLaMA打了波免费广告,更多有志于趟AI这趟浑水的中小公司只能干瞪眼。
也跟着这波浪潮推出改进模型Dolly的创业公司Databricks有心改变这一现状,于是祭出了新的大模型Dolly 2.0。
Dolly 2.0是一个基于开源EleutherAI pythia 模型系列,使用120亿参数的大语言模型。与GPT-3.5使用的1750亿参数比,Dolly 2.0并不算大,而这也是Databricks故意为之:“其他人都想做的更大,但我们对更小的东西感兴趣。”
还是因为,Dolly 2.0的数据集真是手搓出来的,
与一代不同,Dolly 2.0使用的数据集完全来自Databricks的员工,因此Databricks表示,Dolly 2.0 是“业内第一个开源、遵循指令的大语言模型”,其使用的数据集也是“首个开源的、由人类生成的指令数据集”。
根据OpenAI发布的论文,早期的InstructGPT 模型基于了一个1.3万指令遵循行为演示组成的数据集上训练而来。为此Databricks在内部组织了一次动员,最终在奖励的鼓舞下,5000多名作为标注者的Databricks员工在今年3月和4月中的一周时间,生成了一个规模1.5万个的指令记录语料库,比OpenAI最初的版本还要好。
相较训练数据截止到2021年9月的GPT-4,Dolly 2.0时效性更强,且由于专业创作,也能减少因为引用错误答案而胡编乱造的概率。按照Databricks的说法,这些训练数据“自然、富有表现力”,内容从头脑风暴到内容生成,再到信息提取和总结无所不包。
因此Databricks 首席执行官 Ali Ghodsi 表示,虽然此前已经有其他商用的大语言模型,但“它们不会像 Dolly 2.0 那样与你交谈”。
而根据该数据集的许可条款,任何人都可因任何目的使用、修改或扩展这个数据集。当然,任何目的包括商用。
如若转载,请注明出处:http://www.ashkeling.com/2023/04/515145