微软研究团队新进展解决大型语言模型LLM的中间丢失问题

微软研究团队新进展:解决大型语言模型(LLM)的“中间丢失”问题。

微软研究团队新进展解决大型语言模型LLM的中间丢失问题-2

论文地址:https://arxiv.org/abs/2404.16811

代码仓库:https://github.com/microsoft/FILM/tree/main

微软:让你的大模型把所有内容都用上!

📌 这项来自微软的研究部分解决了大型语言模型(LLM)中的“中间丢失”问题,即LLM在处理长文本上下文时,特别是在中间部分,难以充分利用信息。

📌 论文假设“中间丢失”挑战源于长文本训练期间缺乏明确的监督,导致模型对上下文开始和结束部分的信息产生了偏见。

📌 为了解决这个问题,论文提出了一种名为INformation-INtensive(IN2)的训练方法,这是一种使用合成长文本问答数据集的数据驱动方法。

数据集构建:

数据集由一般自然语言语料库构建。

长文本(4K-32K个令牌)是通过串联短段落(约128个令牌)合成的。

使用GPT-4-Turbo生成两种类型的问题-答案对:

细粒度信息感知:需要从长文本中的单个短段落中提取信息的问题。

信息整合与推理:需要从两个或更多短段落中提取信息,促进多跳推理的问题。

数据集包括长文本、短文本和一般指令调整数据的混合,以防止灾难性遗忘和长度偏见。

微软研究团队新进展解决大型语言模型LLM的中间丢失问题-3

INformation-INtensive (IN2) 训练训练过程:

使用构建的数据集对预训练的Mistral-7B-Instruct-v0.2模型进行微调。

训练遵循指令调整范式,将上下文和问题视为指令,对答案生成计算损失。

VAL探测:

引入了一种新的探测方法,用于评估不同上下文风格和检索模式下的长文本信息意识。

设计了三项任务:

文档句子检索(双向):在文档风格的上下文中检索包含特定短语的句子。

代码函数检索(反向):在代码上下文中识别给定代码片段的函数名称。

数据库实体检索(正向):在结构化数据上下文中检索给定ID的标签和描述。

微软研究团队新进展解决大型语言模型LLM的中间丢失问题-4

结果:

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/231.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>