大型语言模型LLM如何理解长文档
微软发布了一篇学术论文,探讨了大型语言模型(LLM)如何理解长文档。内容较长,本文做了一个简要总结。

1. “中间丢失”问题
论文集中讨论了一个问题:
LLM在处理长文本时经常忽略中间的重要信息。
它们往往只关注:
开头部分 结尾部分
这个问题被称为“中间丢失”挑战。

2. 假设
问题的根源在于 训练数据中的偏差。
在训练过程中,模型受到:
附近词汇
的影响,导致它们更关注:
开头 结尾
于是,他们提出了一个解决方案:

3. 解决方案:IN2训练
他们引入了信息密集(INformation-INtensive,IN2)训练方法,并用合成数据集微调了Mistral 7-B-Instruct模型。
该模型被称为FILM-7B。
目标: 教会模型识别整个内容中的重要信息。
方法:

4. 探测与实际任务
使用从短段落构建的合成长文本问答数据集。
他们采用了9项任务来评估在实际场景中的长文本能力:
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/193.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。
THE END
二维码


共有 0 条评论