观热点：羊驼家族大模型集体进化！32k 上下文追平 GPT-4，田渊栋团队出品

首页 > 滚动 > 内容页

观热点：羊驼家族大模型集体进化！32k 上下文追平 GPT-4，田渊栋团队出品

2023-06-28 17:49:22 来源:量子位

开源羊驼大模型 LLaMA 上下文追平 GPT-4，只需要一个简单改动！

Meta AI 这篇刚刚提交的论文表示，LLaMA 上下文窗口从 2k 扩展到 32k 后只需要小于 1000 步的微调。

与预训练相比，成本忽略不计。

(资料图片仅供参考)

扩展上下文窗口，就意味着 AI 的" 工作记忆 "容量增加，具体来说可以：

支持更多轮对话，减少遗忘现象，如更稳定的角色扮演

输入更多资料完成更复杂的任务，如一次处理更长文档或多篇文档

更重要的意义在于，所有基于 LLaMA 的羊驼大模型家族岂不是可以低成本采用此方法，集体进化？

羊驼是目前综合能力最强的开源基础模型，已经衍生出不少完全开源可商用大模型和垂直行业模型。

论文通信作者田渊栋也激动地在朋友圈分享这一新进展。基于 RoPE 的大模型都能用

新方法名为位置插值（Position Interpolation），对使用RoPE（旋转位置编码）的大模型都适用。

RoPE 早在 2021 年就由追一科技团队提出，到现在已成为大模型最常见的位置编码方法之一。

但在此架构下直接使用外推法（Extrapolation）扩展上下文窗口，会完全破坏自注意力机制。

具体来说，超出预训练上下文长度之外的部分，会使模型困惑度（perplexity）飙升至和未经训练的模型相当。

新方法改成线性地缩小位置索引，扩展前后位置索引和相对距离的范围对齐。

用图表现二者的区别更加直观。实验结果显示，新方法对从 7B 到 65B 的 LLaMA 大模型都有效。

在长序列语言建模（Long Sequence Language Modeling）、密钥检索（Passkey Retrieval）、长文档摘要（Long Document Summarization）中性能都没有明显下降。

除了实验之外，论文附录中也给出了对新方法的详细证明。Three More Thing

上下文窗口曾经是开源大模型与商业大模型之间一个重要差距。

比如 OpenAI 的 GPT-3.5 最高支持 16k，GPT-4 支持 32k，AnthropicAI 的 Claude 更是高达 100k。

与此同时许多开源大模型如 LLaMA 和 Falcon 还停留在 2k。

现在，Meta AI 的新成果直接把这一差距抹平了。

扩展上下文窗口也是近期大模型研究的焦点之一，除了位置插值方法之外，还有很多尝试引起业界关注。

1、开发者 kaiokendev 在一篇技术博客中探索了一种将 LLaMa 上下文窗口扩展到 8k 的方法。

2、数据安全公司 Soveren 机器学习负责人 Galina Alperovich 在一篇文章中总结了扩展上下文窗口的 6 个技巧。3、来自 Mila、IBM 等机构的团队还在一篇论文中尝试了在 Transformer 中完全去掉位置编码的方法。有需要的小伙伴可以点击下方链接查看～

Meta 论文：

https://arxiv.org/abs/2306.15595

Extending Context is Hard … but not Impossible

https://kaiokendev.github.io/context

The Secret Sauce behind 100K context window in LLMs

https://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

无位置编码论文

https://arxiv.org/abs/2305.19466

关键词：

品牌 更多+

x 广告

招商 更多+

折扣 更多+

杭州亚运场馆消防演练：高精尖装备守“安全关”

2022-05-13

广州白云区青年护士在抗疫一线绽放青春之花

2022-05-13

西北女生湖南高职逐梦克服手指缺陷成职教名师

2022-05-13

时尚 更多+

设计师马乖：“素白”出圈让世界看到株洲服饰的力量

x 广告

观热点：羊驼家族大模型集体进化！32k 上下文追平 GPT-4，田渊栋团队出品

中新网北京5月12日电 (记者杜燕)北京新冠肺炎疫情防控工作领导小组检疫检测工作组副组长、北京市卫生健康委员会副主任、新闻发言人

中新网深圳5月12日电 (朱族英)深圳大学12日发布消息称，深圳大学深圳南特金融科技学院(Shenzhen Audencia Financial Technology I

中新网新疆阿拉尔5月12日电 (张芳)55岁的张艳军是新疆生产建设兵团第一师阿拉尔医院一名普普通通的护士，今年是她从事护理工作的第32

中新网成都5月12日电 (杨予頔安源)12日，为纪念汶川特大地震14周年，进一步提高城乡居民防震防灾意识和安全避险能力，四川省阿坝州

杭州亚运场馆消防演练：高精尖装备守“安全关”

广州白云区青年护士在抗疫一线绽放青春之花

西北女生湖南高职逐梦克服手指缺陷成职教名师

观热点：羊驼家族大模型集体进化！32k 上下文追平 GPT-4，田渊栋团队出品

中新网北京5月12日电 (记者 杜燕)北京新冠肺炎疫情防控工作领导小组检疫检测工作组副组长、北京市卫生健康委员会副主任、新闻发言人

中新网深圳5月12日电 (朱族英)深圳大学12日发布消息称，深圳大学深圳南特金融科技学院(Shenzhen Audencia Financial Technology I

中新网新疆阿拉尔5月12日电 (张芳)55岁的张艳军是新疆生产建设兵团第一师阿拉尔医院一名普普通通的护士，今年是她从事护理工作的第32

中新网成都5月12日电 (杨予頔 安源)12日，为纪念汶川特大地震14周年，进一步提高城乡居民防震防灾意识和安全避险能力，四川省阿坝州

杭州亚运场馆消防演练：高精尖装备守“安全关”

广州白云区青年护士在抗疫一线绽放青春之花

西北女生湖南高职逐梦 克服手指缺陷成职教名师

　　中新网北京5月12日电 (记者杜燕)北京新冠肺炎疫情防控工作领导小组检疫检测工作组副组长、北京市卫生健康委员会副主任、新闻发言人

　　中新网深圳5月12日电 (朱族英)深圳大学12日发布消息称，深圳大学深圳南特金融科技学院(Shenzhen Audencia Financial Technology I

　　中新网新疆阿拉尔5月12日电 (张芳)55岁的张艳军是新疆生产建设兵团第一师阿拉尔医院一名普普通通的护士，今年是她从事护理工作的第32

　　中新网成都5月12日电 (杨予頔安源)12日，为纪念汶川特大地震14周年，进一步提高城乡居民防震防灾意识和安全避险能力，四川省阿坝州

西北女生湖南高职逐梦克服手指缺陷成职教名师