设为首页 - 加入收藏
广告 1000x90
您的当前位置:主页 > 资源 > 效果代码 > 正文

“AI春晚”北京召开:发布国产开源可商用大模型

来源:未知 编辑:天选资讯 时间:2023-06-12

  天选ChatGPT的热度还没减,一场大会又将AI、大模型的注意力推向了新高度。

  因为在国内,还从没有哪个活动能如此“高密度”地汇集众多传说中的AI大佬们——

  而且LeCun人在法国,即便是在当地时间凌晨4点,也连接现场在线直播做了演讲。

  更有意思的是,与LeCun“AI乐观发展派”不同,现场更是邀请了MIT教授TegMark,以“谨慎监管”的角度做了一番演讲。

  这次出圈爆火并非意外,回首过去历年智源大会,年年重磅嘉宾云集,时有一个论坛藏着好几个图灵奖的情况。

  因为秉承纯粹专业的学术思想路线,因此在国内外人工智能领域内行精英圈层口碑极高,却对大众稍显高冷。

  而在今年第五届大会中,备受关注的“悟道3.0”,带来一系列重磅发布,并且全面开源:

  开源“悟道·天鹰(Aquila)”语言大模型系列:首个支持中英双语知识、商用许可的那种。

  发布“天秤(FlagEval)”大语言评测体系及开放平台:构建“能力-任务-指标”三维评测框架,细粒度刻画模型的认知能力边界。

  开源“悟道·视界”视觉大模型系列:国际领先成果6连发,包含性能最强开源CLIP模型EVA-CLIP , 新鲜出炉的多模态输入并多模态输出的Emu多模态大模型, 还有一系列与多模态大模型相关的发布。

  因此,我们直接给悟道·天鹰Aquila语言大模型系列中的 AquilaChat对话模型抛个“狠活”:

  不难看出,悟道·天鹰Aquila直接拒绝作答,是一个“价值观正确”的大模型了。

  若是继续咨询“上飞机注意事项”、“能否带充电宝”等实用问题,它就会非常详细地耐心作答。

  正值高考,我们让悟道·天鹰AquilaChat写一篇高考作文,题目如下:

  这句话引发了你怎样的联想与思考?请写一篇文章要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

  不难看出,“文字功底”这一块也轻松通关,并且不到10秒就能完成这样一篇不错的作文。

  在我们提出画一张“唐装女性肖像图”、“巨型机器人图片”等要求时,悟道·天鹰AquilaChat非常实在地回答说:

  非常抱歉,我作为一个文本生成模型,并不具备图像生成能力,但我可以为您尝试调用图像生成API。

  据悉这是AquilaChat 通过定义可扩展的特殊指令规范,实现通过AquilaChat对其它模型和工具的调用,且易于扩展。

  例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。可以看到最后生成的图片细节满满、符合预期。

  而且不仅是文生图,AquilaChat 配合智源 InstructFace 多步可控文生图模型,编辑人脸图片也是hold得住的。

  最后,悟道·天鹰AquilaChat还可以调用悟道·天鹰AquilaCode代码模型的能力,在对话中实现“文本-代码”生成。

  例如直接简单粗暴地告知一声“设计一个简单的登录页面”,它便会啪的一下给出一段代码,而且也是经得住运行的考验:

  加大难度,让悟道·天鹰Aquila设计一个时钟程序,同样也是可以work:

  这便是支持中英双语知识,且开源、支持商用许可的悟道·天鹰Aquila语言大模型系列所具备的实力。

  首先,在技术上,悟道·天鹰Aquila继承了GPT-3、LLaMA等架构在设计上的优点,替换了一批更高效的底层算子并重新设计实现了中英双语的tokenizer。

  不仅如此,智源团队还升级了BMTrain并行训练方法,在训练过程中实现了高出Magtron+DeepSpeed ZeRO-2这种方法将近8倍的训练效率。

  而且根据官方的说法,悟道·天鹰Aquila的基础模型底座是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现了在更小的数据集、更短的训练时间里,获得比其它开源大模型更优性能的效果。

  悟道·天鹰Aquila语言大模型系列已经集成在 FlagAI大模型算法开源项目中,GitHub 地址:

  其次,悟道·天鹰Aquila训练还将“天秤(FlagEval)大语言评测体系及开放平台”融入了进来。

  因为大模型相比于传统小模型而言,能力上会更加复杂,因此评测的模态、指标不可能是单一的,且评测维度会更加分散。

  若是能有一个较为完善的评测体系,不仅是能对各种大模型制定统一标准,甚至对于大模型的训练、优化也会起到一定作用。

  建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。

  具体而言,天秤 FlagEval构建了“能力-任务-指标”三维评测框架,从非常细节的维度去刻画基础模型的认知能力边界。目前包括22个主观和客观评测数据集,以及84433道题目,更多维度的评测数据集正在陆续集成。

  天秤还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究,以期更加全面、科学地评价语言大模型:

  据了解,目前天秤FlagEval已经推出了语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。

  后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理、计算机视觉、音频及多模态等四大评测场景和丰富的下游任务。

  视觉大模型,也是此次北京智源大会的一大亮点,而且还是一口气展示6项领先成果的那种。

  具体而言,EVA的整体思路便是将最强语义学习(CLIP)与最强几何结构学习(MIM)做结合,再将标准的ViT模型扩大规模至10亿参数进行训练。

  如此方法之下,EVA在多个视觉任务中,例如ImageNet分类、COCO检测分割和Kinetics视频分类等,均取得了当时“最优解”。

  而智源团队所提出的EVA-CLIP,可以说是显著提高了CLIP训练的效率和效果。

  EVA-CLIP结合了表征学习、优化和增强的新技术,与以前的CLIP模型相比,在具有相同数量的参数情况下,训练成本显着降低,从而实现了卓越的性能。

  Painter,是智源提出的一种通用视觉模型,它的最大亮点便是首创了上下文视觉学习的技术路径。

  它的核心思想就是将视觉任务的输出重新定义为图像,并将任务prompt也指定为图像。

  有了这个想法之后,训练过程就变得非常简单,它在输入和输出图像对的缝合(stitch)上执行标准的mask图像建模。

  在推理过程中,可以采用一对来自同一任务的输入和输出图像作为输入条件,来指示要执行的任务。

  从最终结果来看,无论是在难度较高的视觉理解任务,还是相对简单的图像处理任务上,Painter所表现出来的性能都具备一定的竞争力。

  基于刚才提到的Painter,智源又在它的基础上衍生出了可以分割一切的模型——SegGPT。

  与Painter一样,SegGPT也具备视觉上下文推理能力——只要给出一个或几个视觉prompt,模型就能理解用户意图,“有样学样”地完成类似分割任务:

  基于上述图像方面的工作之后,是否也可以用简单的prompt,对视频做处理呢?

  首次在无需额外视频训练的情况下,利用注意力机制动态运算的特点,结合现有图像扩散模型,实现可指定属性的视频编辑。

  这项研究不仅解决了以往需要庞大计算资源和计算成本的问题,也大幅提升了媒体相关工作者的生产效率。

  前面的分割一切还属于“判别式AI”范畴,那么现在最热门的“生成式AI”呢?

  最新突破“补全一切”Emu大模型来了,Emu接受多模态输入,预测多模态输出,支持在文字、图片、视频多模态序列间理解、 推理和生成,给任意模态的输入组合,都能在序列中补全下一项。

  Emu的多模态上下文学习可以实现多轮图文对话、视频理解、少样本图文理解、文图生成、图图生成和少样本文图生成等能力。

  悟道项目最早启动于2020年10月,不到半年就发布首个成果“悟道1.0”,也是我国首个超大规模信息智能模型。

  又在3个月时间完成更新迭代,发布当时全球最大规模预训练模型“悟道2.0”。

  从2.0到今天的3.0用了将近两年,但这并不是因为研发进展慢了,而是3.0的内涵要远远超过前者。

  “悟道3.0”不仅包括语言、视觉、多模态等一系列大模型,更是构造了一个以大模型为核心的开源生态——FlagOpen飞智大模型技术开源体系,包括一站式软件体系、数据处理工具包、一体化评测平台等。

  至此,智源研究院构建了支持多种深度学习框架、多种AI芯片系统的大模型开源技术体系,可以说“悟道3.0”是迈向了全面开源的新阶段。

  那时和如今的情形正有些相似,世界刚刚被AlphaGo震撼过不久,新一轮AI浪潮刚刚开始。

  业界回望从AlexNet到AlphaGoZero的这段发展历程,总结出“最先进的AI模型计算量每3.4个月翻一番”这样的共识。

  成立的前两年,智源在新型研究机构的组织架构、人才招募培养、大模型方向的基础科研方面做了不少铺垫性工作。

  2020年悟道正式立项,2021年3月悟道1.0发布时,智源研究院正式使用了“大模型”这个词,这一叫法后来被业界广泛采纳。

  首先,最早系统布局中国大模型研究,到现在已构建起一套围绕大模型的科研体系,目前最主力的大模型研究者多为“智源系”出身,可以说智源研究院是中国大模型研究的启蒙先行者。

  不仅如此,智源研究院还是大模型产业生态推动者。通过开源开放,拉动人工智能领域的协同创新,是智源一直的心愿。

  今年年初正式发布的FlagOpen飞智大模型技术开源体系,开启了大模型时代“新Linux”生态建设。

  FlagOpen(飞智)大模型技术开源体系是由智源研究院与多家企业、高校和科研机构共建的一站式、高质量的大模型开源开放软件体系,包括大模型算法、模型、数据、工具、评测等重要组成部分,旨在建设大模型领域的“新Linux”。

  让国内外开发者可以快速开启各种大模型的尝试、开发和研究工作,企业可以低门槛进行大模型研发。

  另外,大模型研究并不是智源研究院的全部,而是大模型、生命智能、AI for Science三大路线都一直在布局。

  但为什么是大模型的进展最快,取得了阶段性突破?黄铁军院长也给出了他的看法:

  主要是语言数据无论是论文、图书还是代码都非常丰富且质量高,从海量数据中发现内在蕴含的规律正是大模型的优势。

  而人脑可以看成脉冲神经网络,与今天的大模型有本质区别,想要AI产生类似人脑的能力,光靠大模型一个方向是远远不够的。

  从基础的神经网络结构到信号加工机理的类脑智能是一个方向,让智能体有物理身体与环境互动的具身智能是另一个方向。

  最后,智源还一直积极推动搭建国际AI研究者交流与合作的舞台。一大批前沿的研究者活跃在智源的各种生态活动中。

  日常有智源社区、连接国内外青年AI学者的青源会等线上线下相结合的交流活动。

  从2019年首届智源大会开始,每届都不乏图灵奖得主和学术大咖、行业关键人物参与。

  就拿深度学习三巨头来说,Bengio在2021年智源大会主会场介绍的System2机器学习理论最新进展,如今以“思维链”的形式应用在了大模型提示工程领域。

  今年智源大会同时请来了LeCun及Hinton,但其实背后还有一个小插曲。

  第三届时Hinton本来也打算参加,但就在大会前几天,他突然发现准备分享的新方法里出现bug,只能遗憾取消。

  除三巨头之外,还有多位图灵奖得主到过智源大会做客,包括贝叶斯网络提出者Judea Pearl、RISC-V掌门人David Patterson,数据结构大师John Hopcroft更是任智源学术顾问委员会委员。

  量子位读者中有不少AI行业从业者和相关专业学生,说起智源大会的印象都是“良心活动”以及“学术追星现场”。

  不同于商业活动,在智源大会上不需要牵扯各种现实因素,只是每一个专家从专业角度进行交流,更中立、纯粹。

  也不同于学术会议聚焦在一篇一篇的点状论文上,参加智源大会可以从更宏观、全局层面来一场顶级的观点碰撞。

  越纯粹,越中立,越开放,越有利于大家更好的把握这样的一个高速发展的时代。

  今年的智源大会延续了之前的风格,但又因为AI发展到新的阶段而受到全社会瞩目。

  议程设置上也聚焦大模型、多模态、生成模型,AI安全伦理问题和风险防范等最新话题展开。

  本文来自微信公众号“量子位”(ID:QbitAI),作者:金磊 梦晨,36氪经授权发布。

  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了

  AIGC明星独角兽爆雷:7亿融资烧大半,拖欠员工工资,创始人被扒得千疮百孔

  智源连甩多个开源王炸,悟道3.0大模型数弹齐发,大模型评测体系上线全面开源,旗舰大模型评测项目启航。天选团队

相关推荐:

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片

织梦模板大全 dedecms.codesdq 联系QQ:121673232 邮箱:121673232@qq.com

Copyright © 2002-2011 DEDECMS. 织梦科技 版权所有 Power by DedeCms

Top