0代码训练GPT-5？MIT微软证实GPT-4涌现自我纠错能力

来源：未知编辑：天选资讯时间：2023-07-06

　　【新智元导读】谁能想到，训练GPT-5竟不用手写代码。MIT微软最新研究发现，GPT-4在代码修复中的有效性。以后，OpenAI工程师能做的只有——Critique is all you need。

　　近日，MIT和微软的学者发现，在GPT-4和GPT-3.5之中，只有GPT-4表现出了有效的自修复。并且，GPT-4甚至还能对GPT-3.5生成的程序提供反馈。

　　在他看来，即使是最专业的人类程序员也无法一次性正确编写程序。他们需要查看执行结果，推理出问题所在，给出修复措施，反复尝试。这是一个智能体循环:根据环境反馈迭代改进代码。

　　很有可能，OpenAI正在通过雇佣大量软件工程师来训练下一代GPT。而他们不需要输出代码——Critique is all you need。

　　- GPT-4能够进行自我修复的核心原因是其强大的反馈能力。它能够有效地自我反思代码的问题所在，其他模型无法与之竞争。

　　然而，在具有挑战性的编程任务（比如竞赛和软件工程师的面试）中，它们却完成得并不好。

　　好在，很多模型会通过一种自修复工作流来「自省」，来自我纠正代码中的错误。

　　研究者很希望知道，这些模型在多大程度上能提供正确的反馈，并且说明自己生成的代码为什么是错误的。

　　首先，给定一个规范，从代码生成模型中采样一个程序，然后在规范中提供的一组单元测试上执行该程序。

　　如果程序在任何单元测试中失败，那么错误的消息和程序会被提供给一个反馈生成模型，该模型再输出代码失败原因的简短解释。

　　表面上看，这个工作流似乎非常完美。它让系统在解码过程中克服由于不良样本引起的错误，在修复阶段容易地合并来自符号系统（编译器、静态分析工具和执行引擎等）的反馈。

　　然而，工作流有一个问题:自修复需要对模型进行更多的调用，从而增加了计算成本。

　　而且，研究者们发现了一个很有意思的现象:大模型自修复的有效性不仅取决于模型生成代码的能力，还取决于它对于代码如何在任务中犯错的识别能力。天选团队

　　目前还没有任何工作对此进行详细调查，因此，作者们研究了GPT-3.5和GPT-4在解决竞赛级代码生成任务时的自修复有效性。

　　因为使用的是pass@t，而不是传统的pass@k（根据实验数量衡量通过率），这样就能与纯粹基于采样的方法进行公平的比较。

　　1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5，在所有预算下，修复后的通过率要低于或等于基准的无修复方法。

　　2. 即使对于GPT-4模型，性能提升也最多只能算是适度的（在预算为7000个token的情况下，通过率从66%提高到71%，约等于45个独立同分布的GPT-4样本的成本），并且取决于初始程序的多样性足够丰富。

　　3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释，可以获得更好的自修复性能，甚至超过基准的无修复GPT-3.5方法（在7000个token下，从50%提高到54%）。

　　4. 使用人类程序员提供的解释替换GPT-4自己的解释，可以显著改善修复效果，修复并通过测试的程序数量增加了57%。

　　如果任何样本通过了所有的测试，就会停止，因为此时已经找到了令人满意的程序。

　　这些错误消息要么包含编译/运行时错误信息，要么包含程序输出与预期不同的示例输入。

　　样本中获得正确程序的可能性）不是比较和评估自我修复的各种超参数选择的合适度量。

　　天选

　　相反，研究人员将通过率作为从模型中采样总token数量的函数来衡量，将其称之为

　　1. 对于更加有挑战的编程任务中，这些模型的自我修复是否比不进行修复的i.i.d.有更好的采样?

　　3. 如果让人类参与功能最强模型的自我修复循环，提供人工反馈，是否可以解锁更好的修复性能?

　　这个数据集中的任务包括从入门级到大学竞赛级的编程任务，可以用来评估人类程序员解决问题和代码能力。

　　研究人员选取了300个任务，包括60个入门级别的任务和60个竞赛级别的任务。

　　研究人员选取了GPT-3.5和GPT-4作为模型，使用模板字符串连接和单次提示词来进行自我修复。

　　在右边的图中，我们沿轴显示了具有两个超参数的热图，其中每个单元格中的值表示平均通过率，当给定相同的token预算（即t的相同值pass@t）时，自我修复由基线的平均通过率归一化。

　　从图中可以看到，对于GPT-3.5模型，pass@t在所有设置下都低于或等于相应的基线（黑），清楚地表明自我修复对GPT-3.5并不是一种有效的策略。

　　研究人员又进一步进行了新的实验，评估使用单独的、更强的模型来生成反馈的效果，目的是为了测试一个假设:由于模型无法内省和调试自己的代码，阻碍了自我修复（比如说对于GPT-3.5）。

　　在绝对性能方面，GPT-3.5，GPT-4确实突破了性能障碍，并且比GPT-3.5的i.i.d.采样略微更高效。

　　这表明文本反馈阶段本身是至关重要的，改进它可以缓解GPT-3.5自修复的瓶颈。

　　在最后一项实验中，想要研究在用更强的模型（GPT-4）进行修复时，加入专家人类程序员的反馈的影响。

　　研究目的是了解模型识别代码中错误的能力与人类的能力相比如何，以及这如何影响自修复的下游性能。

　　研究人员研究人员招募了16名参与者，包括15名研究生和1名专业机器学习工程师。

　　每个程序都取自不同的任务，参与者永远不会看到属于同一个任务的两个不同的程序。

　　研究人员发现，当我们用人类参与者的调试替换GPT-4自己的调试时，总体成功率提高了1.57×以上。

　　不出意外的是，随着问题变得更难，相对差异也会增加，这表明当任务（和代码）变得更复杂时，GPT-4产生准确和有用反馈的能力远远落后于人类参与者。

　　在微软研究院，他是Redmond分部深度学习（DL）组的负责人。该组的使命是推进DL的最新技术，并将其应用于自然语言和图像理解以及构建对话代理。他领导了构建大规模基础模型的研究，这些模型为微软的重要人工智能产品提供了支持。

　　从2022年开始，他负责自我改进人工智能的研究，其中包括对LLM（如ChatGPT/GPT4）进行增强和适应，以用于商业人工智能系统的开发。

　　Chenglong Wang是微软研究院的研究员，此前在华盛顿大学获得了博士学位，并曾就读于北京大学。

　　腾讯云618狂欢节特惠来袭！现在购买3年轻量云服务器，配置2核2G4M，只需396元！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　在3月14日推出新一代的自然语言处理模型GPT-4之后，OpenAI何时会推出下一代的模型也就备受关注，在马斯克、沃兹尼亚克上千名业内人士及知名人士签署公开信，呼吁AI实验室暂停训练更强大模型6个月的情况下，OpenAI是否已在训练GPT-4的继任者GPT-5，也是外界所关注的。但对于GPT-5，OpenAI的CEO萨姆·奥特曼，4月14日在麻省理工学院的一场活动中就已表示他们并未开始训练GPT-5，在短期内也不会训练。在4月份在麻省理工学院的活动上，萨姆·奥特曼也谈到了马斯克等人所签署的公开信，当时他是表示信中缺少大部分技术细节，无法了解需要暂停的地方。

　　有时并不太灵光什么，微软的Bing能识别图片了?还是抢在了ChatGPT之前?和当初只画饼、不落地的GPT-4预览相比，Bing这次可谓占尽了风头。有Reddit网友发现，Bing的界面上突然就出现了个上传图片的选项。事实性的识别和生成感觉问题不大，就是不知道未来有点文化隐喻的那一趴能不能做到更好。

　　万万想不到啊，MIT数学考试，被GPT-4攻破了?!突然有人在最新论文工作中高调宣布:GPT-4在MIT的数学和EECS本科学位考试中，表现出的能力完全满足毕业要求。且妥妥地拿下满分!要知道，测出这个结果的不是别人，正是来自MIT和波士顿大学、康奈尔大学的研究团队。不仅比模型更大的LLaMA-65B高出近10个百分点，就连MITfine-tuing过后的LLaMA-30B要高。

　　相信大家都被GPT-4满分轻松拿下MIT本科数学考试的事儿给刷屏了。给先不知情的小伙伴们说一下，这次的测试是MIT、波士顿大学和康奈尔大学的研究团队共同根据MIT所有获得学位所需的数学、电气工程和计算机科学课程整理出来了4550个问题。关于GPT的相关研究和衍生风波，都还会持续再刮一阵子。

　　GitHubCEOThomasDohmke为自家的AI辅助编码工具GitHubCopilotX站台，在全球网络峰会现场，亲自下场体验了一把，最终用18分钟编写出了一款贪吃蛇游戏。整个编码过程速度之快，似有让人人成为“10倍开发者”的趋势。与其说Alex败给了Hamid的效率，倒不如说适应新技术的不灵活性才是他被替代的关键原因。

　　许多对AI感兴趣的开发人员的注意力都集中在一个特定的GitHub存储库上:GPT-Engineer。基于GPT-4的软件旨在根据程序员的需求自动化大部分代码编写过程。用户可以从GitHub获取代码和安装说明。

　　尽管大规模语言模型在各种自然语言处理任务中展现出卓越的性能，但算术类问题仍然是一个难题，即使是目前最强大的GPT-4也很难解决基本的运算问题。来自新加坡国立大学的研究人员提出了一个专门用于算术问题的模型，名为Goat。其他研究人员也可以很容易地重复这个实验，因为该模型、数据集和生成数据集的Python脚本即将开源。

　　在微软支持下的OpenAI创业公司承诺在GPT-4后的继任者GPT-5上「一段时间内」不进行研发，这让许多行业高管和学者对SamAltman领导的大型语言模型的快速发展表示担忧，但几个月过去了，OpenAI仍未开始训练GPT-5。OpenAI首席执行官Altman在印度报纸《经济时报》主办的一次会议上表示：「在我们启动那个模型之前，我们还有很多工作要做。Altman积极敦促立法者认真思考AI普及的潜在滥用

　　6月12日，日本著名的漫画家手塚治虫的经典漫画作品《怪医黑杰克》将会在今年秋季推出全新作品，《周刊少年冠军》杂志将会首发。这次新作的制作将会接受到GPT-4的协助。项目成员将会根据由GPT-4生成的剧本以及AI图像创建模型产生的卡通人物和漫画版面，来制作漫画。

　　核心频率不同，CPU型号不同天玑9200+和天玑 9000 都是联发科的5G旗舰级芯片，天玑9200+和天玑9000都是采用台积电4nm工艺制程。天玑9200+的CPU最高主频为3.3GHz，而天玑 9000 的CPU最高主频为3.2GHz。两款芯片都支持双模5G、WiFi 6E和蓝牙5. 2 等技术。

　　天玑9200+主频是3.0GHz，与骁龙 8Gen 2 相同，跑分要比骁龙 8Gen 2高一点点天玑 9200+ 处理器与天玑 9200 同架构，但所有核心频率增加，主频来到了 3.0GHz，与骁龙 8Gen 2 相同。跑分数据，天玑 9200+ 在 Geekbench v6 平台单核得分 2121 分，多核得分 5655 分。作为对比，骁龙 8Gen 2 的单核跑分成绩在大约 2000，多核成绩大约 5400。天玑9200+的安兔兔跑分大约为 136 万分，骁龙8Gen2 安兔兔跑分大约是128万分。

　　在 Geekbench v6 平台单核得分 2121 分，多核得分 5655 分联发科已经正式官宣，天玑9200+将于 5 月 10 日发布，这款处理器的 Geekbench v6 跑分已经出现。天玑 9200+ 处理器与天玑 9200 同架构，但所有核心频率增加，主频来到了 3.0GHz，与骁龙 8Gen 2 相同。根据爆料的跑分数据，天玑9200+在 Geekbench v6 平台单核得分 2121 分，多核得分 5655 分。作为对比，骁龙 8Gen 2 的单核跑分成绩在大约 2000，多核成绩大约 5400。

　　7天以上小米手环 8 搭载蓝牙 5.1，内置直流 3.87V 聚合物锂离子电池，型号为 M2239B1。上一代的小米手环 7 续航大约有9-15天左右。小米手环 7 内置180mAh 电池。预计小米手环8的续航会比小米手环7续航略微提升一点。

　　2K+ 分辨率魅族 20 Pro 采用6.81英寸直屏，2K+ 分辨率、100% P3 广色域、120Hz LTPO 高刷、最高 1200 nit 全屏亮度、最低 2 nit 全屏亮度，同时支持防蓝光、DC 调光等功能一应俱全；魅族 20 Pro采用旗舰级性能配置，包括顶级处理器第二代骁龙 8、12GB 起步的 LPPDR5X 大内存、至高 512GB UFS4.0 极速闪存以及 36424 平方毫米的立体散热堆叠。

　　第二代骁龙 8，LPPDR5X+UFS4.0，2K三星E6 材质Super AMOLED屏幕魅族 20 Pro，内置第二代骁龙 8，LPPDR5X+UFS4.0，搭载了2K三星E6 材质Super AMOLED屏幕，屏幕尺寸6. 81 英寸，支持120Hz自适应屏幕刷新率和1500Hz瞬时触控采样率，峰值亮度可达1800nit，屏幕还通过了SGS抗蓝光、抗频闪护眼认证；破晓灰、曙光银、朝阳金三种配色，整机厚7. 8 毫米，重 209 克；镜头模组由 5000 万像素人像镜头、 5000 万像素广角镜头、 5000 万像素超广角镜头组成，支持全像素对焦技术搭配dTOF辅助对焦，官方称将使对焦速度提升33%。魅族20 系列的主摄均支持SMA防抖，最高8K视频录制和夜景录像功能；5000mAh电池配80W快充，支持50W无线GB三种存储组合，售价 3999 起。

　　后置三摄，主摄 5000万像素，屏幕分辨率2496*2224华为Mate X3有「羽砂玻璃版:羽砂白、羽砂黑、羽砂紫」、「素皮版:晨曦金、青山黛」五款配色可选;覆盖昆仑玻璃;超轻薄折叠四曲设计，机身重量仅239g，厚度仅5.3mm， IPX8级抗水。屏幕拥有2496*2224超高分辨率和426ppi 超高像素密度。同样支持最高120Hz 自适应刷新率以及1440Hz PWM 调光。影像方面:搭载5000万像素超感知主摄，1300万像素超广角镜头，1200万像素潜望式长焦镜头。并配备10通道多谱传感器和激光对焦传感器，支持100倍变焦和5倍光学变焦。续航方面:配备4800mAh 大电池，支持50W 无线W 有线W 无线反向快充。性能方面:与华为 P60系列一样搭载了骁龙8+ 处理器，配备了超冷跨轴石墨烯散热系统，导热面积提升了20%。价格:华为Mate X3:256GB:12999、512GB:13999;华为 Mate X3典藏版:1TB:15999

　　6. 67 英寸的OLED屏幕， 4800 万像素长焦镜头华为P60 系列在背部采用了矩阵型模组，官方称之为“凝光设计”，引入了“凝光贝母”工艺；华为P60 全系搭载了6. 67 英寸的OLED屏幕，拥有2700* 1220 刷新率，显示效果十分细腻，支持10. 7 亿色、1440Hz PWM调光。同时支持全局色彩管理，支持莱茵专业色准双重认证；屏幕还支持LTPO动态高刷新率，支持1~120Hz自适应刷新率，还配备了昆仑玻璃面板，IP68 防尘抗水；相机方面，华为P60 Pro则进一步升级长焦镜头，配备了 4800 万像素RYYB的超聚光夜视长焦镜头，支持3. 5 倍光学变焦、OIS，拥有F2. 1 超大光圈；支持双向北斗卫星通信；5100 毫安时大电池+88W快充；首发搭载了全新的鸿蒙3.1，新增了AOD息屏显示功能。

　　6.67英寸的OLED屏幕，支持1~120Hz的LTPO刷新率华为P60 系列的屏幕搭载了骁龙8+ 4G处理器，6. 67 英寸的OLED屏幕，支持1~120Hz的LTPO刷新率，支持1440Hz PWM调光，拥有10. 7 亿色、全局P3 色域、HDR-P3HDR Vivid显示效果；覆盖四曲昆仑玻璃，支持IP68 防水，是全球首款德国莱茵专业色准双重认证的手机；相机方面，华为P60 支持F1.4-4. 0 十档可变光圈，搭载大光圈高透光镜群和RYYB超感光传感器，支持了华为XD Fusion Pro质感引擎；支持双向北斗卫星消息；首发搭载鸿蒙3.1，支持AOD息屏显示；价格，华为P60 的128GB版 4488 元，256GB版本是 4988 元，512GB版本是 5988 元。

　　天玑9000芯片，LPDDR5+UFS3.1，11.61英寸LCD屏幕，支持144Hz刷新率OPPO Pad2主要配置包括:11.61英寸7:5比例LCD显示屏，拥有2800×2200分辨率和500尼特亮度，支持144Hz五档刷新率智能调节，2048级亮度自适应智能调光并支持手写笔。OPPO Pad2基于联发科技天玑9000，辅以LPDDR5内存和UFS3.1存储，内置9510毫安时电池、67W有线万像素前置摄像头和蓝牙5.3。软件方面，ColorOS13.1支持5G通信共享。可以自动共享手机的5G通信，从而直接上网、接打电话、同步手机验证码、拍照流转和应用接力。

　　5G双待双通（DSDS）、WiFi 6/6E、蓝牙5.3等骁龙7+ Gen2 采用了骁龙X62 5G调制解调器，在全球范围内支持多种频段和模式的5G网络连接。它还是首款在骁龙 7 系中实现了5G双待双通（DSDS）功能，在两张SIM卡都插入时可以同时使用两个不同运营商或不同网络制式（例如SA和NSA）的5G网络服务。除此之外，它还支持WiFi 6/6E和蓝牙5. 3 等无线技术。

上一篇：CC++编程规范对高性能计算中代码可读性和维护性
下一篇：减减负、提提速｜信创国家队慧点科技WEBuilder低