清华唐杰新作WebGLM：参数100亿主打联网搜索性能

来源：未知编辑：天选资讯时间：2023-07-06

　　你可以问它任何问题，然后它将列举出网上（例如维基百科、相关官网）相关的文章链接，整理出答案。

　　据介绍，在性能对比测试中，WebGLM的水平已经高于OpenAI 135亿参数的WebGPT，在人类评估中，甚至与1750亿参数的模型不相上下。

　　据介绍，WebGLM的目标是通过Web搜索和检索功能，增强预训练大语言模型，同时可以进行高效的实际部署。

　　它主要是用于增强模型相关网络内容的检索能力，在给定查询的情况下查找相关引用，以便后面更好地准确回答问题。

　　它利用GLM（比如清华之前发布的双语开源预训练模型GLM-130B）的能力为问题生成回复，提供详细的答案。

　　利用该生成器，作者得到WebGLM-QA——一个LLM自举引用和长程的QA数据集。

　　它通过上下文学习等策略进行清洗和过滤，最终包括45k的高质量过滤样本和83k的噪声样本。

　　它通过优先考虑人类偏好而非昂贵的专家反馈来评估生成回复的质量，确保系统能够产生有用和吸引人的内容。

　　LLM增强检索器会将前五个最相关的页面作为参考源，让自举生成器生成多个答案，最终打分器选出最可能符合人类偏好的那一个作为最终输出。

　　除了WebGLM本身，唐杰团队此次还提出了一个网络增强问答系统的评估标准，评估对象既包括参考文献，也包括最终回答。

　　其中前者衡量相关性、信息密度、真实性（无事实错误）、毒性（不含暴力色情等信息）和社会偏见程度这5个维度；后者则衡量流畅度、正确性、引用准确性、客观性和冗余程度。

　　他们用WebGPT（来自OpenAI，基于GPT-3进行微调）演示网站提供的272个问题进行对比评估，并招募了15个学历为硕士的志愿者打分。

　　值得一提的是，WebGLM检索过程只使用了一些传统的基于单词的算法和两个累计参数量不超过300M的Contriever。

　　此外，WebGLM在计算性能和时间消耗方面也明显优于WebGPT-13B、并与175B不相上下。

　　而在最终结果方面，WebGLM在流天选团队畅度、真实性和冗余度方面均获得最高得分，正确性指标上则接近WebGPT-175B，远高于Perplexity.ai和WebGPT-13B。

　　要想部署它，需要从SerpAPI官网获得一个密钥，用于在搜索过程中获取搜索结果。

　　运行该模型的方式有两种：一是命令行界面，二是Web服务形式，并且包含WebGLM-2B和WebGLM-10B两种可选模型。

　　你也可以自己训练WebGLM，官方已提供好了生成器和检索器的训练数据供下载～