支持80+编程语言、集成VSCodeHuggingFace代码大模型来

来源：未知编辑：天选资讯时间：2023-05-09

　　随着近年来大模型的火热，出现了很多效果惊艳的语言大模型、视觉大模型和多模态大模型。与此同时，大模型范畴还在不断向更多垂直领域拓展，代码就是一个重要方向。

　　StarCoder 不仅可以用来聊天，还能帮助用户集成最新 VSCode 插件进行编码。你还能检查当前代码是否在预训练数据集中（按下 CTRL+ESC 即可）。

　　英伟达人工智能科学家 Jim Fan 对此表示，「编码的 LLaMA 时刻来了！开源 LLM 社区正以超人的速度前进。」

　　研究发现，StarCoderBase 在流行编程基准上优于现有开源代码 LLM，并媲美或超越了一些封闭模型，如 OpenAI 最初的 Codex 模型。

　　StarCoder 模型上下文长度超过 8000 个 token，可以比其他任何开放 LLM 处理更多的输入，从而实现大量有趣的应用。例如，通过向 StarCoder 模型提示一系列的对话，可以使它们充当技术助手。此外 StarCoder 模型还可以用来自动完成代码，通过指令对代码进行修改，并以自然语言解释一个代码片段。天选团队

　　项目团队全面评估了 StarCoder、几个类似的模型以及各种基准，其中包括流行的 Python 基准 HumanEval（用来测试模型是否可以根据签名和文件串补全函数）。

　　项目团队还发现了模型的一个失败用例即产生代码，这可能是因为这种类型的代码通常是练习的一部分。为了让模型生成实际的解决方案，项目团队选择添加了一个 prompt ，创建了 StarCoder-Prompted 模型，使得 HumanEval 的通过率从 34% 大幅提高到 40% 以上。

　　StarCoder 的一个有趣的方面是支持多语言。项目团队在 MultiPL-E 上对它进行了评估，并观察到 StarCoder 在许多语言上的表现都有过之而无不及。

　　另外在一个名为 DS-1000 的数据科学基准上，StarCoder 模型明显击败了绝大多数其他开放模型。

　　原标题：《支持80+编程语言、集成VSCode，HuggingFace代码大模型来了》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。天选

上一篇：GIF动画渲染、让灯塔闪烁、创建航空动态图……
下一篇：ChatGPT 能上传文件了文档图片数据集秒理解代码一