微软研究团队新进展解决大型语言模型LLM的中间丢失问题
微软研究团队新进展:解决大型语言模型(LLM)的“中间丢失”问题。

论文地址:https://arxiv.org/abs/2404.16811
代码仓库:https://github.com/microsoft/FILM/tree/main
微软:让你的大模型把所有内容都用上!
📌 这项来自微软的研究部分解决了大型语言模型(LLM)中的“中间丢失”问题,即LLM在处理长文本上下文时,特别是在中间部分,难以充分利用信息。
📌 论文假设“中间丢失”挑战源于长文本训练期间缺乏明确的监督,导致模型对上下文开始和结束部分的信息产生了偏见。
📌 为了解决这个问题,论文提出了一种名为INformation-INtensive(IN2)的训练方法,这是一种使用合成长文本问答数据集的数据驱动方法。
数据集构建:
数据集由一般自然语言语料库构建。
长文本(4K-32K个令牌)是通过串联短段落(约128个令牌)合成的。
使用GPT-4-Turbo生成两种类型的问题-答案对:
细粒度信息感知:需要从长文本中的单个短段落中提取信息的问题。
信息整合与推理:需要从两个或更多短段落中提取信息,促进多跳推理的问题。
数据集包括长文本、短文本和一般指令调整数据的混合,以防止灾难性遗忘和长度偏见。

INformation-INtensive (IN2) 训练训练过程:
使用构建的数据集对预训练的Mistral-7B-Instruct-v0.2模型进行微调。
训练遵循指令调整范式,将上下文和问题视为指令,对答案生成计算损失。
VAL探测:
引入了一种新的探测方法,用于评估不同上下文风格和检索模式下的长文本信息意识。
设计了三项任务:
文档句子检索(双向):在文档风格的上下文中检索包含特定短语的句子。
代码函数检索(反向):在代码上下文中识别给定代码片段的函数名称。
数据库实体检索(正向):在结构化数据上下文中检索给定ID的标签和描述。

结果:
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/231.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论