微软研究团队新进展解决大型语言模型LLM的中间丢失问题

clash • 2026年1月18日 am7:40 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

微软研究团队新进展：解决大型语言模型（LLM）的“中间丢失”问题。

论文地址：https://arxiv.org/abs/2404.16811

代码仓库：https://github.com/microsoft/FILM/tree/main

微软：让你的大模型把所有内容都用上！

📌 这项来自微软的研究部分解决了大型语言模型（LLM）中的“中间丢失”问题，即LLM在处理长文本上下文时，特别是在中间部分，难以充分利用信息。

📌 论文假设“中间丢失”挑战源于长文本训练期间缺乏明确的监督，导致模型对上下文开始和结束部分的信息产生了偏见。

📌 为了解决这个问题，论文提出了一种名为INformation-INtensive（IN2）的训练方法，这是一种使用合成长文本问答数据集的数据驱动方法。

数据集构建：

数据集由一般自然语言语料库构建。

长文本（4K-32K个令牌）是通过串联短段落（约128个令牌）合成的。

使用GPT-4-Turbo生成两种类型的问题-答案对：

细粒度信息感知：需要从长文本中的单个短段落中提取信息的问题。

信息整合与推理：需要从两个或更多短段落中提取信息，促进多跳推理的问题。

数据集包括长文本、短文本和一般指令调整数据的混合，以防止灾难性遗忘和长度偏见。

INformation-INtensive (IN2) 训练训练过程：

使用构建的数据集对预训练的Mistral-7B-Instruct-v0.2模型进行微调。

训练遵循指令调整范式，将上下文和问题视为指令，对答案生成计算损失。

VAL探测：

引入了一种新的探测方法，用于评估不同上下文风格和检索模式下的长文本信息意识。

设计了三项任务：

文档句子检索（双向）：在文档风格的上下文中检索包含特定短语的句子。

代码函数检索（反向）：在代码上下文中识别给定代码片段的函数名称。

数据库实体检索（正向）：在结构化数据上下文中检索给定ID的标签和描述。

结果：

版权声明：
作者：clash
链接：https://www.shadowrocket6.top/231.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

AI教母李飞飞我的新书我所看到的世界

最新AI进展一指令层级多头专家混合AdvPrompterSnapKVXCCACHE让

下一篇>>

搜索内容