RetrievalHead深度解析长文本信息检索AI开源项目

项目一

RetrievalHead深度解析长文本信息检索AI开源项目-2

内容同步自知识星球《AGI Hunt》,加入可查看更多项目与实时AI动向

Retrieval Head:深度解析长文本信息检索

2024-04-18 64 stars 3 forks

Retrieval Head 项目介绍

Retrieval Head 是一个开源项目,由 nightdessert 创建,旨在通过统计方法计算变换器(transformer)模型中注意力头(attention heads)的信息检索得分。该项目的核心贡献在于为理解长文本处理提供了一种新的视角,即通过识别模型中的检索头(retrieval heads),来解释模型如何在长文本中检索相关信息。

项目特点

算法实现 :项目提供了一个算法,用于统计计算变换器模型中注意力头的检索得分。

高效性 :仅需一块80G的GPU,即可处理长达50K的文本。

易用性 :通过简单的命令行操作即可使用该算法。

模型兼容性 :目前已支持包括LLama、Yi、Qwen和Mistral在内的多种模型家族。

结果展示 :所有检测结果将以JSON格式保存,并通过平均检索得分进行排序,方便用户直观了解各个注意力头的检索能力。

使用方法

python retrieval_head_detection.py --model_path $path_to_model --s 1000 --e 50000

结果输出

检测结果将保存在 ./head_score/*.json 文件中,每个头的检索得分以列表形式记录,方便进行后续分析。

项目成果

通过平均检索得分和排名,可以快速识别出模型中的检索头,例如:

Head:[16, 19], Retrieval Score: 0.94Head:[11, 15], Retrieval Score: 0.92Head:[8, 26], Retrieval Score: 0.8

未来工作

项目计划未来将展示检索头对“Needle-in-a-Haystack”测试的影响,这将进一步验证检索头在长文本处理中的重要性。

项目链接

GitHub - nightdessert/Retrieval_Head: https://github.com/nightdessert/Retrieval_Head

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/259.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>