设为首页 - 加入收藏

广告 1000x90

您的当前位置：主页 > 资源 > 效果代码 > 正文

腾讯大模型的绝活居然是发布会上没吹的写代码

来源：未知编辑：天选资讯时间：2023-09-10

　　在各方消息看来，除了像小米这种说不打算做大模型的之外，绝大部分大厂们基本都已经陆续上线过大模型了。

　　其实，腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的 MaaS （ Model-as-a-service ，模型即服务）解决方案。

　　毕竟上一个用 “hun yuan ” 名号的，可是打了一整套闪电五连鞭。

　　整个测试环节将分：常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结，以及大家喜闻乐见的弱智吧问答等 8 个维度。

　　但当我让他展开讲讲的时候其实还行，但可惜无中生有了 “ 长文总结 ” 这个模块。

　　而 ChatGPT 由于输入字数限制，被我人为分成了两部分输入，不确定这有没有没影响它的总结能力。

　　在回答中，它莫名克扣了对自己的所有评测，甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点，也不好用。

　　看来，这俩大模型总结得都没那么完美，想看看两家到底什么水平，大家还得仔细往下看正文。

　　这句话混元理解得挺好，基本解释了我对单身这事的调侃，两个 “ 看不上 ” 都解释上了。

　　但 ChatGPT 说的依旧很 ChatGPT ，说最多的话，犯最蠢的错。

　　他本来解释得相当到位，特别是分析这句话是用幽默的方式来调侃单身，还带着一丝无奈情绪，很高级。

　　因为要回答这题，首先得熟悉三国这些人物历史背景、相关故事，特别是骂完许攸这个时间节点很微妙。

　　混元急哄哄地给袁绍出主意， ChatGPT 则是以为我要穿越，教我做事。

　　至于两个给的回答，既没有 get 到我提出这个微妙时间节点的用意，也没有什么行之有效的战略规划，都是些泛泛而谈的车轱辘话。

　　既然一个复杂指令两个考试都理解不好，那干脆简单点，让两者去角色扮演一个婚礼主持人，一点点诱导进行连续对话。

　　结果就是，混元不愧是本土大模型，背靠火星文鼻祖发源地 QQ 空间就是有优势，火星文的熟练度相当不错。

　　而 ChatGPT 虽然意识到火星文是一种不标准的中文形式，但他实在学不会这种方式，最后甚至直接承认自己不行了。

　　这次出的题目是，写一个现代极客风格的 925 活动抽奖页面，页面中必须有醒目的 925 标志。

　　说起来，因为混元发布时对代码能力基本没咋提，所以本来我们对混元的代码能力没啥期待。

　　但论这个题目，混元的效果相当不错，黑白配色的极客风有了，页面逻辑也没啥问题。

　　甚至还预留了给我们替换 logo 的位置满足我们有 925 醒目标志的区域，相当成熟。

　　对比之下， ChatGPT 甚至把极客风理解成了 925 极客活动。。。整个抽奖界面也非常毛胚。

　　这次我们也挑了不少数学问题给两个考生做，从小学 1 年级一直做到了初一。

　　最终混元大模型在六年级时挑战失败，到了初一开始胡言乱语，也让我们彻底放弃测试了。

　　而 ChatGPT 由于输入字数限制，被我人为分成了两部分输入，不确定这有没有没影响它的总结能力。

　　这次我们更新了题库，用上了今年上半年最新的弱智吧精选问题，我们发现可能 AI 最后的图灵测试可能还真是弱智吧。

　　因为在大部分测试里，混元和 GPT 基本都不够弱智而无法正确理解问题，这点上，人类遥遥领先！

　　除了以上这些常规测试外，混元发布会后的媒体采访上，很多媒体也在询问腾讯这么晚掏出大模型，那和市面上的竞品们有什么优势。

　　腾讯方面则是说，混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉（胡言乱语）等通病上，有了针对性的改善。

　　不得不说，混元的大模型幻觉减少较为明显，这大概也和他惜字如金有关系，毕竟说多错多还是很有道理的。

　　但容易受诱导这方面的改善其实并不明显，一些该跳的坑还是很难避免，只能说千防万防，人心难防。

　　而且作为一个刚上市的大模型，一些小问题比起同期早已发布的前辈们还是有待改进。

　　比如 “ 重新生成 ” 答案经常性会失灵，甚至有的时候重启重新输入问题都没法解决。

　　而当你发现混元说错了某个回答希望他改正，他总是倔强地虚心认错，死不悔改。

　　还有就是，他对一些比较简单的提问，反而有时候会抽风，有点像抓关键词一样作答，很让人抓狂，只能不停修改提示词才会好点。

　　再吹毛求疵一点的话，这个生成问题时的头像动效，有种二胡卵子的异样美感，咱也不知道这是高级呢还是可爱呢？

　　这些小问题其实还挺频繁，真要列起来又有点太稀碎，大家还是自己体验后会有更深刻的理解。

　　不过这些小毛病，后续的更新迭代倒也简单，等用户数多了，相信很快就能优化。

　　总的来说，混元和 ChatGPT 在中文环境下的 PK 中，二者其实水平差不多，放到国产大模型梯队里，也能有个平均水平。

　　只是在用了这么多大模型后，我们感觉混元特别之处是给人的感觉，它更像个理工科直男，主打一个废话少说。

　　而 GPT 为首的其它大模型们则是典型的文科小编，主打能水就水，油多不坏菜。

　　那对于差评君来说，混元大模型更让人期待的，反而是和腾讯旗下应用的深度融合。

　　但在这些办公软件之外，腾讯系里游戏、社交、影音等等，才是更和大家休闲快乐相关的业务。

　　在这些领域，大模型的未来会是什么形式、什么程度的结合，才更是大家所最期待的。

　　更关键的是，在其他大模型还在苦苦尝试怎么和业务、和已有应用的结合上，腾讯却已经有了成功经验。

　　此前腾讯多模态 AI 大模型率先被应用在广告投放，当时累计给广告主带来 15% 的 GMV 提升。

　　所以，被网上吐槽的最晚发布大模型的大厂，这么看起来好像也不是什么飞龙骑脸的天崩局面。

　　17173全新怀旧频道已上线！推荐怀旧网游，重温老玩家故事。点此进入怀旧频道

　　图个好游戏：韩国人又割韭菜？6年前的老游戏炒冷饭再上架，差评率高达55%

　　9月15日上映！《敢死队4：最终章》预告片发布：史泰龙、斯坦森等硬汉集结

　　一周神评论：腾讯闷声干大事？测5年的游戏终于上线，网友吐槽：看热度不像

　　一周神评论：《守望先锋2》上架Steam，不到一天几千差评，玩家吐槽：暴雪不配好评！天选团队天选

上一篇：自定义企业培训系统：源码定制与扩展指南
下一篇：没有了

相关推荐：

网友评论：

发表评论

最新评论 进入详细评论页>>

栏目分类

最新文章

热门文章

织梦模板大全 dedecms.codesdq 联系QQ：121673232 邮箱：121673232@qq.com

Copyright © 2002-2011 DEDECMS. 织梦科技版权所有 Power by DedeCms

Top