2024-12-30 11:47:34 | 来源: AICG工具箱
1月17日,上海人工智能实验室发布的新一代大语言模型“书⽣·浦语”2.0(InternLM2)正式发布并开源。2种参数规格、3种模型版本,共计6个模型,全部免费可商用。
它支持200K超长上下文,可轻松读200页财报。200K文本全文范围关键信息召回准确率达95.62%。
不借助任何外部工具,内生数理能力超过ChatGPT。配合代码解释器,可达到和GPT-4相仿水平。
同时还带来工具多轮调用、更高共情等能力。
据了解,这些都得益于“书⽣·浦语”2.0在基础建模能力上完成大幅升级,语料质量更高、信息密度更大。所以,“书⽣·浦语”2.0带来哪些升级?又是如何做到?
上海AI实验室领军科学家林达华教授,向我们披露了背后机密。
“书⽣·浦语”2.0共包含2种参数规格:7B和20B。7B面向轻量级研究和应用,20B综合性能更强可支持更复杂的使用场景。
每个规格中包含3个模型版本。
InternLM2-BaseInternLM2InternLM2-ChatBase版本是2.0中新增加的版本,它是标准版InternLM2 在进行能力强化前的版本,更加基础、可塑性也更高,因此更适合做探索研究。
标准版InternLM2是在Base基础上,对多个能力进行强化。它的评测成绩更好,同时保持了很好的通用语言能力,适合大部分应用。
Chat版本在Base基础上经过SFT和RLHF,在对话能力上进行加强,具有很好的指令遵循、共情、调用工具等能力。
具体能力方面,相较于上一代,InternLM2核心加强了基础语言建模能力。
可以看到两代模型在大规模高质量验证语料上的loss分布,第二代分布整体左移,表明语言建模能力实质性增强。
由此下游任务实现全方位提升,包括:
有效支持200K tokens超长上下文支持复杂智能体搭建、工具多轮调用内生数理能力超越ChatGPT综合性能处于同规模开源模型领先水平InternLM2现在有效支持20万字超长上下文,同时保持很高的信息召回成功率,相较于上一代提升明显。
对InternLM2进行“大海捞针”实验,通过将关键信息随机插入一段长文本的不同位置构造问题,测试模型是否能从长文本中提取关键信息。
结果显示,InternLM2-Chat召回准确率始终保持在高位,16K以内的平均准确率达到 95.65%。
在实际场景中,InternLM2可以处理长达3个小时的会议记录、212页长的财报内容。
内生计算能力也有大幅提升。
InternLM2在不依靠计算器等外部工具的情况下,可进行部分复杂数学题的运算和求解。100以内数**算上可做到接近100%准确率,1000以内达到80%准确率。
如果配合代码解释器,20B模型已可以求解积分等大学级别数学题。
工具调用方面,基于更强和更具有泛化性的指令理解、工具筛选与结果反思等能力,InternLM2可更可靠地支持复杂智能体搭建,支持工具进行有效多轮调用、完成复杂任务。
综合性能方面,InternLM2在推理、数学、代码方面表现突出。不仅相较于上一代提升明显,而且在标准测评集上,部分指标已经超越ChatGPT。
比如InternLM2-Chat-20B在MATH、GSM8K上,表现都超过ChatGPT。在配合代码解释器的条件下,则能达到和GPT-4相仿水平。
在AGIEval、 BigBench-Hard(BBH)等对推理能力有较高要求的评测上,新一代20B模型的表现优于ChatGPT。
同时InternLM2还和其他开源模型进行了全方位性能对比。
对比规格相近基座模型和对话模型,结果如下:
注:Mixtral-8x7B每次推理会激活约13B参数,而且这个模型近期也备受关注,因此其表现也列在此处作为参考。
从各项数据来看,InternLM2已经完成了全方位升级,给开源社区带来了“ChatGPT级别”的大模型选择。
那么它是如何做到的?技术上做了哪些创新?
和许多大模型迭代升级的路线不同,InternLM2并没有卷参数规模,而是把重点放在了数据方面。上海AI实验室领军科学家林达华教授介绍,这是出于整体策略的考量。
提炼出一版非常好的数据后,它可以支持不同规格模型的训练。所以首先把很大一部分精力花在数据迭代上,让数据在一个领先的水平。在中轻量级模型上迭代数据,可以让我们走得更快。
为此,上海AI实验室研发了新一代数据清洗过滤体系,主要工作有三个方面:
**数据价值评估高质量语料驱动的数据富集有针对性的数据补齐首先在数据价值评估上,基于语言质量、信息密度等维度对数据价值进行综合评估与提升。比如研究团队发现,论坛网页上的评论给模型能力带来的提升非常有限。
所以团队利用高质量语料的特征从物理世界、互联网以及语料库中进一步富集更多类似语料。这样可以引导种子数据去汇聚真正有知识量的数据,加大它们的比重。
最后再针对性补充语料,重点加强世界知识、数理、代码等核心能力。
为了打造新一代数据清洗体系,研究团队训练了三位数的模型数量。因为体系每一次迭代,都起码需要训一个7B规模上的大模型做验证。
在新一代数据清洗技术的加持下,只使用约60%的训练数据,即可达到上一版数据训练1T tokens的性能表现。
另外,为了避免数据污染导致评测结果失真,InternLM2通过更严谨的训练集构建流程,把各测试集排除在外,同时通过min-hash去重,去掉训练语料中和测试集接近的部分。
当然,InternLM2不仅关注模型基座能力,也基于当下应用趋势需求,针对一些下游任务能力做提升。
比如近来很火的超长上下文趋势,林达华教授介绍工具调用、数理推理等场景都需要更长的长下文窗口。
所以InternLM2通过拓展训练窗口大小和位置编码改进,并找到足够长且高质量、有结构以来关系的数据做训练,同时优化训练系统,将上下文窗口支持延长到了20万tokens。
在大模型对话体验方面,InternLM2采用Online RLHF,对奖励模型和对话模型进行三轮迭代更新,在每一轮更新中对前一轮模型更新偏好数据和训练prompt。
在奖励模型训练和PPO阶段都平衡地采用各类prompt,使得模型在安全性进一步提升的情况下,对话的主观体验也显著提升。
值得一提的是,研究团队同步开源了InternLM2-Chat仅SFT和SFT+RLHF的权重,供社区分析对比RLHF前后模型的变化。
总结来看,对于InternLM2的升级迭代,上海AI实验室核心关注模型基座能力,同时还结合大模型应用趋势的需求,针对部分下游任务做重点提升。
在快速演进的趋势里,这种清晰的思路很难得。它需要团队对技术有深入理解、对趋势有准确判断,能大幅提升大模型开发效率,加速模型迭代升级。
热门榜单
Replika,ai伙伴
常用AICool Gift Ideas
常用AI文心一言
常用AIHi Echo — 网易有道
常用AI有道速读 — 网易有道
常用AI讯飞听见
常用AI快影
常用AIWPS AI
常用AI美图设计室
常用AI热门资讯
淘宝AI应用_淘宝问问AI导购助手_官方内测教程方法
01-03金山WPS AI新功能新玩法首发测评:不含水分,中文版「GPT+Office」真的来了!
01-07一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度丨Lumiere AI使用体验分享
12-30首批85个ChatGPT Plus插件全面测评:能打“五星”的插件只有6个
01-07GPTs教程_怎么自己做GPTs_GPTs部署安装
01-15国内首次2024全科高考AI测评开分:阿里通义、GPT-4o等七款大模型参与,文科进一本理科进二本
12-25实测阿里通义千问视觉大模型Qwen-VL Max「超大杯」:会读图、写代码,秒懂网络梗图,中文顶流性能视觉大模型
12-30Midjourney V6生图超进化!国外大神深度测评:对比V5.2版本,画质逼真骇人,人像细节不再有「AI感」
12-30谷歌Gemini引发争议!网友质疑宣传片疑似剪辑效果 夸大宣传丨实测对标GPT-4测评基准有失偏颇
12-30飞书AI协同办公产品“飞书智能伙伴”实测:AI员工搬砖效率震惊全公司
12-30