ob电竞·(中国)电子竞技平台

【ashkeling专稿，未经授权不得转载！】

ashkeling报道/ChatGPT蹿红之后，不只自己红遍全球，连带着也催生了大语言模型的崛起，巨头们都想要在红到发紫的市场分一杯羹。

尽管OpenAI自GPT-2之后就不再开源，但为了不被OpenAI母公司微软赢家通吃，前不久巨头如Meta，也将自家大语言模型LLaMA开源，并很快带动了一批由高校主导改进的大语言模型的面世，比如Alpaca、Koala、Vicuna等等。

但商业毕竟不是做慈善，LLaMA的开源也有些扭捏——由于使用了限制商业用途的数据集，对LLaMA及其改进模型的使用，都被限制在学术研究的范围内。Alpaca等模型相当于给LLaMA打了波免费广告，更多有志于趟AI这趟浑水的中小公司只能干瞪眼。

也跟着这波浪潮推出改进模型Dolly的创业公司Databricks有心改变这一现状，于是祭出了新的大模型Dolly 2.0。

Dolly 2.0是一个基于开源EleutherAI pythia 模型系列，使用120亿参数的大语言模型。与GPT-3.5使用的1750亿参数比，Dolly 2.0并不算大，而这也是Databricks故意为之：“其他人都想做的更大，但我们对更小的东西感兴趣。”

还是因为，Dolly 2.0的数据集真是手搓出来的，

与一代不同，Dolly 2.0使用的数据集完全来自Databricks的员工，因此Databricks表示，Dolly 2.0 是“业内第一个开源、遵循指令的大语言模型”，其使用的数据集也是“首个开源的、由人类生成的指令数据集”。

根据OpenAI发布的论文，早期的InstructGPT 模型基于了一个1.3万指令遵循行为演示组成的数据集上训练而来。为此Databricks在内部组织了一次动员，最终在奖励的鼓舞下，5000多名作为标注者的Databricks员工在今年3月和4月中的一周时间，生成了一个规模1.5万个的指令记录语料库，比OpenAI最初的版本还要好。

相较训练数据截止到2021年9月的GPT-4，Dolly 2.0时效性更强，且由于专业创作，也能减少因为引用错误答案而胡编乱造的概率。按照Databricks的说法，这些训练数据“自然、富有表现力”，内容从头脑风暴到内容生成，再到信息提取和总结无所不包。

因此Databricks 首席执行官 Ali Ghodsi 表示，虽然此前已经有其他商用的大语言模型，但“它们不会像 Dolly 2.0 那样与你交谈”。

而根据该数据集的许可条款，任何人都可因任何目的使用、修改或扩展这个数据集。当然，任何目的包括商用。

如若转载，请注明出处：http://www.ashkeling.com/2023/04/515145

ob电竞·(中国)电子竞技平台

人均AI大手子不是梦，真正可商用的开源AI大模型Dolly 2.0来了！