Meta 开源的 ChatGPT 平替到底好不好用？测试结果、

来源：未知编辑：天选资讯时间：2023-03-09

　　Meta 开源的大模型系列 LLaMA 评测出炉，对比结果显示，和 ChatGPT 还是有差距的。

　　就在刚刚过去的一周，Meta「开源」了一个新的大模型系列 ——LLaMA（Large Language Model Meta AI），参数量从 70 亿到 650 亿不等。因为 LLaMA 比之前发布的很多大模型参数更少，但性能更好，所以一经发布让很多研究者兴奋不已。

　　参数量的减少对于普通研究者和商业机构来说都是好事，但 LLaMA 真的像论文中说得那样表现那么好吗？和当前的 ChatGPT 相比，LLaMA 是否可以勉强一战？为了解答这些疑问，有些研究者已经对这一模型进行了测试。

　　还有公司已经在尝试补齐 LLaMA 短板，想看能不能通过添加 RLHF 等训练方法让 LLaMA 表现更好。

　　需要注意的是，与 ChatGPT 不同，其他模型并不是基于指令微调，因此 prompt 的结构有所不同。

　　这是谷歌原始 PaLM 论文中展示的一个用例：给出一个笑话，让模型来解释它为什么好笑。该任务需要将世界知识和一些基本逻辑相结合。PaLM 之前的所有模型都无法做到这一点。作者从 PaLM 论文中提取了一些示例，比较了 LLaMA-7B、LLaMA-13B、LLaMA-33B 与 ChatGPT 的表现。

　　不过，ChatGPT 起码 get 到了关于 Schmidthuber 的笑话。但总的来说，这些模型在零样本笑话解释任务上的效果与 PaLM 相差甚远（除非 PaLM 的示例是精心挑选）。

　　作者考虑的第二项任务更具挑战性 —— 标题党（clickbait）分类。由于连人类也无法就什么是标题党达成一致，作者在 prompt 中为这些模型提供了一些示例（因此实际上是小样本而非零样本）。如下为 LLaMa 的 prompt：

　　虽然 LLM 擅长人文学科，但在 STEM 学科上表现糟糕。LLaMA 虽然有基准测试结果，但作者在代码生成领域尝试了一些特别的东西，即将人类语言零样本地转换为 SQL 查询。这并不是很实用，在现实生活中直接编写查询会更有效率。这里只作为代码生成任务的一个示例。

　　在 prompt 中，作者提供表模式（table schema）以及想要实现的目标，要求模型给出 SQL 查询。如下为一些随机示例，老实说，ChatGPT 看起来效果更好。

　　从测试结果来看，LLaMA 在一些任务上表现还不错，但在另一些任务上和 ChatGPT 还有一些差距。如果能像 ChatGPT 一样加入一些「训练秘籍」，效果会不会大幅提升？

　　虽然 LLaMA 发布之初就得到众多研究者的青睐，但是少了 RLHF 的加持，从上述评测结果来看，还是差点意思。

　　ChatLLaMA 训练过程算法实现主打比 ChatGPT 训练更快、更便宜，我们可以从以下四点得到验证：

　　ChatLLaMA 是一个完整的开源实现，允许用户基于预训练的 LLaMA 模型构建 ChatGPT 风格的服务；

　　与 ChatGPT 相比，LLaMA 架构更小，但训练过程和单 GPU 推理速度更快，成本更低；

　　该库还支持所有的 LLaMA 模型架构（7B、13B、33B、65B），因此用户可以根据训练时间和推理性能偏好对模型进行微调。

　　Nebuly AI 希望更多人加入进来，创造更高效和开放的 ChatGPT 类助手。

　　一切准备就绪后，就可以运行了，项目中介绍了 ChatLLaMA 7B 的训练示例，感兴趣的小伙伴可以查看原项目。

　　机器之心将于 3 月 21 日在北京举办「ChatGPT 及大模型技术大会」，为圈内人士提供一个专业、严肃的交流平台，围绕研究、开发、落地应用三个角度，探讨大模型技术以及中国版 ChatGPT 的未来。

　　届时，机器之心将邀请大模型领域的知名学者、业界顶级专家担任嘉宾，通过主题演讲、圆桌讨论、QA、现场产品体验等多种形式，与现场观众讨论大模型及中国版 ChatGPT 等相关话题。

上一篇：前端布局小案例如何创建漂亮的毛玻璃输入表单
下一篇：新闻媒体网站集群IPv6升级改造项目——东南网