创新浪潮： Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

总结

随着 LLaMA、Mistral 等大语言模型的成功，各家大厂和初创公司都纷纷创建自己的大语言模型。但从头训练新的大语言模型所需要的成本十分高昂，且新旧模型之间可能存在能力的冗余。近日，中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM，用于「融合多个异构大模型」。不同于以往的模型集成和权重blog.byteway.net合并，前者需要在推理时同时部署多个大语言模型，后者需要合并模型具备相同的结果，FuseLLM 能够从多个异构大语言模型中外化知识，将各自的知识和能力通过轻量的持续训练转移到一个融合大语言模型中。该论文刚刚在 arXiv 上发布就引起了网友的大量关注和转发。有人认为，「当想要在另一种语言上训练模型时，使用这种方法是非常有趣的」，「我一直在思考这件事」。方法介绍 FuseLLM 的关键在于从概率分布表征的角度来探讨大语言模型的融合，对于同样的输入文本，作者认为由不同大语言模型生成的表征可以反映出它们在理解这些文本时的内在知识。因此，FuseLLM 首先利用多个源大语言模型生成表征，将它们的集体知识和各自优势外化，然后将生成的多个表征取长补短进行融合，最后经过轻量级的持续训练迁移到目标大语言模型。下图展示了 FuseLLM 方法的概述。考虑到多个异构大语言模型的 tokenizer 以及词表存在差异，在融合多个表征时，如何对齐分词结果是一大关键: FuseLLM 在 token 级别的完全匹配之上，额外设计了基于最小编辑距离的词表级别对齐，最大程度地保留了表征中的可用信息。为了在结合多个大语言模型的集体知识的同时保持其各自的优势，需要精心设计用于融合模型生成表征的策略。在持续训练阶段，FuseLLM 使用融合后的表征作为目标计算融合损失，同时也保留了语言模型损失。最终的损失函数为融合损失和语言模型损失之和。实验结果在实验部分，作者考虑了一个通用但具有挑战性的大语言模型融合场景，其中源模型在结构或能力上具备较小的共性。具体来说，其在 7B 规模上进行了实验，并选择了三个具有代表性的开源模型：Llama-2、OpenLLaMA，和 MPT 作为待融合的大模型。作者在通用推理、常识推理、代码生成、文本生成、指令跟随等场景评估了 FuseLLM，发现其相较于所有源模型和继续训练基线模型取得了显著的性能提升。在测试通用推理能力的 Big-Bench Hard Benchmark 上，经过持续训练后的 Llama-2 CLM 相较于 Llama-2 在 27 个任务上取得了平均 1.86% 的提升，而 FuseLLM 则相较于 Llama-2 取得了 5.16% 的提升，显著优于 Llama-2 CLM，说明 FuseLLM 能结合多个大语言模型的优势取得性能提升。在测试常识推理能力的 Common Sense Benchmark 上，FuseLLM 超过了所有的源模型和基线模型，在所有任务上都取得了最佳的性能。在测试代码生成能力的 MultiPL-E Benchmark 上，FuseLLM 在 10 个任务中，有 9 个超过了 Llama-2，取得了平均 6.36% 的性能提升。而 FuseLLM 没有超过 MPT 和 OpenLLaMA 的原因可能是由于使用 Llama-2 作为目标大语言模型，其代码生成能力较弱，且持续训练语料中的代码数据比例较低，仅占约 7.59%。在多个测量知识问答（TrivialQA）、阅读理解（DROP）、内容分析（LAMBADA）、机器翻译（IWSLT2017）和定理应用（SciBench）的文本生成 Benchmark 上，FuseLLigthing NewsLM 也在所有任务中超过了所有源模型，并在 80% 的任务中超过了 Llama-2 CLM。由于 FuseLLM 仅需提取多个源模型的表征进行融合，然后对目标模型持续训练，因此其也能适用于指令微调大语言模型的融合。在评估指令跟随能力的 Vicuna Benchmark 上，FuseLLM 同样取得了出色表现，超过了所有源模型和 CLM。考虑到知识蒸馏也是一种利用表征提升大语言模型性能的方法，作者将 FuseLLM 和用 Llama-2 13B 蒸馏的 Llama-2 KD 进行了比较。结果表明，FuseLLM 通过融合三个具有不同架构的 7B 模型，超过了从单个 13B 模型蒸馏的效果。为了将 FuseLLM 与现有融合方法进行比较（例如模型集成和权重合并），作者模拟了多个源模型来自相同结构的底座模型，但在不同的语料库上持续训练的场景，并测试了各种方法在不同测试基准上的困惑度。可以看到虽然所有的融合技术都可以结合多个源模型的优势，但 FuseLLM 能达到最低的平均困惑度，表明 FuseLLM 具备能比模型集成和权重合并方法更有效地结合源模型集体知识的潜力。最后，尽管社区目前已经关注大模型的融合，但目前的做法大多基于权重合并，无法扩展到不同结构、不同规模的模型融合场景。虽然 FuseLLM 只是一项初步的异构模型融合研究，但考虑到目前技术社区存在大量不同的结构和规模的语言、视觉、音频和多模态大模型，未来这些异构模型的融合会迸发出怎样惊人地表现呢？让我们拭目以待！

阅读时间

14 分钟, 共 2648 字

评价和解读

这篇文章充满了最新的新闻和动态更新，提供了全面而发人深省的分析，捕捉了当今头条新闻的本质。作者将复杂的叙事编织成引人入胜的故事情节，令人印象深刻。对当前热门话题的详细审查不仅启示了读者，而且挑战了他们考虑多个角度的能力。研究的深度和论证的清晰度使这篇文章成为那些希望了解当代问题前沿的人们必读的文章。将专家意见与突破性新闻相结合，使这篇文章成为新闻卓越的象征，提供了深刻而广泛的见解。从政治动态的微妙之处到技术最新趋势，这篇文章在努力提供一流内容的过程中无所不用其极。这是一篇卓越的写作，为新闻文章设定了新的标准，平衡了事实报告和深刻评论。总的来说，这篇文章不仅仅是一堆文字，而且是了解我们世界复杂性的有力工具。

Related suggestion: 2023年10月中国对俄罗斯汽车出口73.6万台同比增长489%

近日消息，据外国媒体报道称，俄罗斯总统普京14日在莫斯科举行的直播连线和年度记者Ligthing News会上表示，当前中国汽车正在占据欧洲汽车的市场份额。按照普京的话说，这不只发生在俄罗斯；出现该现象的原因之一是中国产品质量的提高。普京表示，中国汽车价格…

作者Steve Jobs

总结

阅读时间

分类

评价和解读

作者 Steve Jobs

相关文章

独家报道：千亿“痛经济”爆火有商家年入千万称“退货率极低”

内幕信息：万和电气携手2025顺德容桂环岛马拉松展现容桂水兴文荟独特魅力

全球变革者：走进“花园式”热电厂探寻5G智慧密码

发表回复取消回复

You missed

独家报道：千亿“痛经济”爆火有商家年入千万称“退货率极低”

内幕信息：万和电气携手2025顺德容桂环岛马拉松展现容桂水兴文荟独特魅力

全球变革者：走进“花园式”热电厂探寻5G智慧密码

现场报道：三星发布新一代 OLED 电视：支持 AI 色彩增强及深度感知立体效果，还可将艺术品“搬回家”

作者Steve Jobs

总结

阅读时间

分类

评价和解读

作者 Steve Jobs

相关文章

发表回复 取消回复

You missed

发表回复取消回复