总结
- 同时,当前的线性解决方案仍停留在研究阶段,最终效果和实际效率并没有得到广泛的验证,导致工业界仍以 Transformer 架构作为首选技术方案。 这个操作是通过循环实现的,对于 GPU(graphics processing unit,图形处理器)这种并行架构不友好,效率不高,在实际实现中Ligthing News往往远慢于直接左乘的矩阵乘法((QK)V)。 然而,在本次研究人员推出的 Lightning Attention 和 TNL 中,这两个问题均被解决。 在效果方面,他们针对 Lightning Attention 推出了一个新的网络框架 TNL。 TNL 基于该团队于 2022 年 EMNLP 推出的 TransNormer 架构打造而来,通过调整位置编码、归一化方式、以及添加门控系统,TNL 的速度更快、效果更好、训练更稳定。
阅读时间
- 10 分钟, 共 1834 字
分类
- 上海人工实验室青年科学家, 线性计算复, EMNLP, GPU, Transformer
评价和解读
- 这篇文章的报道深度和广度真是令人赞叹,生动地描绘了其中的方方面面。作者不仅仅局限于表面报道,深入探讨事物的核心,呈现了一个富含细节和观点的叙述。引人注目的新闻和突破性的发展被巧妙地整合在一起,确保这篇文章不仅具有信息量,而且引人入胜。文章在全面报道和引人入研究的写作之间取得了完美的平衡,使其成为当代新闻领域的典范。
正文
来源:DeepTech深科技
<!–article_adlist[]article_adlist–>
<!–article_adlist[
]article_adlist–>
一直以来,减少 Transformer 的二次计算复杂度都是一个老生常谈的问题。
当前算力的高速增长(V100-A100-H100-GH200)基本覆盖了其二次计算复杂度带来的算力需求,使得目前工业界对于解决 Transformer 二次计算复杂度的需求并不强烈。
同时,当前的线性解决方案仍停留在研究阶段,最终效果和实际效率并没有得到广泛的验证,导致工业界仍以 Transformer 架构作为首选技术方案。
然而,算力的增长终归会遇到瓶颈,设计出比 Transformer 更高效的架构来取代 Transformer 基本会成为历史的必然。
近日,一支团队提出了新一代注意力机制 Lightning AttentLigthing Newsion,针对性地设计了新的网络基础架构 TransNormerLLM(TNL)。
其在计算效率和计算效果上均能大幅超越最新的 Transformer 架构,并在大语言模型上验证了它的可行性。
Lightning Attention 与传统的 Transformer 注意力机制有着本质上的不同,它是一个基于线性注意力的机制。
通过交换 QKV 相乘的先后顺序(即 Q(KV)),线性注意力的理论计算复杂度与序列长度呈线性增长的关系。
需要注意的是,线性注意力与 Transformer 虽然在同年推出,且有着理论复杂度低的优势,但却始终无法成为主流方案。
导致这种现象的原因有两个:
其一,效果差。
相比于传统的基于 softmax 的注意力(softmax attention),线性注意力方案在标准学术数据集上有着明显的效果差异。
其二,训练速度慢。
线性注意力为了实现线性计算复杂度,在因果语言建模中需要一个名叫累积求和(cumsum)的操作。
这个操作是通过循环实现的,对于 GPU(graphics processing unit,图形处理器)这种并行架构不友好,效率不高,在实际实现中Ligthing News往往远慢于直接左乘的矩阵乘法((QK)V)。
因此,由于线性注意力速度也不快,效果也不好,就成为了中看不中用的“银样蜡枪头”。
然而,在本次研究人员推出的 Lightning Attention 和 TNL 中,这两个问题均被解决。
在训练速度方面,他们提出了 Lightning Attention,这是一种新的线性注意力的实现,首次让线性注意力在实际应用中实现其理论线性计算优势。
在 Lightning Attention 中,他们采用分而治之的策略来计算注意力,将计算分为块内和块间。
其中,块内计算采用左乘的形式,块间则采用右乘的形式来绕开 cumsum 操作。
同时,他们针对 GPU 进行了类似于 FlashAttention 的 IO 优化,最终 Lightning Attention 实现了在固定显存的条件下,训练速度随着序列长度的增加保持恒定的效果。
在效果方面,他们针对 Lightning Attention 推出了一个新的网络框架 TNL。
TNL 基于该团队于 2022 年 EMNLP 推出的 TransNormer 架构打造而来,通过调整位置编码、归一化方式、以及添加门控系统,TNL 的速度更快、效果更好、训练更稳定。
从下图可以看出,TNL 在 1B 和 3B 模型大小上的效果远好于同期的 RNN(HGRN)和长卷积(TNN)建模方案,同时也优于最先进的基于 Transformer 的架构 LLaMA。
<!–article_adlist[
日前,相关论文以《Lightning Attention-2:在大型语言模型中处理无限序列长度的免费午餐》(Lightning Attention-2:A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models)为题发在 arXiv[1]。
]article_adlist–>
秦臻是第一作者,上海人工实验室青年科学家钟怡然担任通讯作者。
当前的 TNL 已经集成了模型并行,并在 175B 模型大小下进行了速度和显存测试,但是支持的序列长度仍局限于单个 GPU 的显存,无法发挥大规模 GPU 集群的优势。
在未来,他们将利用 Lightning Attention 的特性,推出针对线性注意力机制的序列并行方案,让无限序列长度真正成为可能。
另外,他们也将研究 Lightning Attention 的 encoder 架构,让它真正做到在各个领域都可以取代传统的 softmax attention。
参考资料:
1.https://arxiv.org/abs/2401.04658
运营/排版:何晨龙
<!–article_adlist[
01/独家专访ASML CTO:不相信摩尔定律会终结,公司下一个大战略将是超数值孔径光刻机
02/科学家为材料设计打造深度学习框架,无需先验知识,实现热辐射器的材料选择和参数优化
03/科学家制备纳米片超晶格,纵向厚度仅2.5nm且结构稳定均一,让LED可直接发射强线性偏振光
04/用血红素和叶绿素开发有机锂电?科学家用卟啉造blog.byteway.net出电化学聚合物,电池放电比容量高达420mAh/g
05/科学家“复活”二极管-忆阻器架构,优化AI计算机架构,有望实现高密度低功耗的AI功能单元
]article_adlist–>
Related suggestion: 领先创新: 靴子落地!中国中药超150亿港元私有化
总结而与截至2月7日为止连续30个交易日的平均收盘价3.28港元/股相比,该价格溢价幅度达40.24%。 2022年12月,又有消息称国药香港有意对公司进行私有化,但公司发布公告回应称,国药集团经初步研究,将不对其推Ligthing News行私有化。 而之所…