Anthropic神经网络中的暗物质

Anthropic 可解释性团队今天发布了一份精彩的报告。

Anthropic神经网络中的暗物质-2

这份报告直指目前神经网络可解释性研究的 痛点 ,简单来说就是:我们现在对神经网络内部机制的理解,可能就像是在黑暗中摸象, 只摸到了冰山一角 。

大量的罕见特征“暗物质”和复杂的叠加现象仍无法被我们理解🤔

Anthropic神经网络中的暗物质-3

报告列出了未来可解释性研究需要克服的 5大障碍 ,这5个问题个个都能让研究员头大:

缺失特征 :目前的方法只能提取出一小部分可解释的特征,很多罕见特征可能还隐藏在暗处。这些未被发现的特征就像是神经网络中的" 暗物质 ",没有重大算法突破很难被发现。

跨层叠加 :在深度网络中,浅层网络可能横跨多个相邻层实现。这就导致很难把特征精确地映射到某一层,现有的字典学习方法对此束手无策。

注意力叠加 :多个注意力头的组合可能会形成"注意力特征",这可能是计算的基本单位,但目前的方法还无法捕捉到。

干扰权重 :"真实"的网络权重可能以叠加的形式分布在整个网络中。这会导致出现一些"干扰权重",它们是为了允许表示其他网络而存在的妥协,这让网络分析变得更加困难。

宏观视角 :即使我们能完全理解单个特征和网络,把这些理解综合成对神经网络的整体认知仍然是个大挑战。这可能需要我们对更大尺度的结构、普适性和宏观对应关系有更深入的洞察。

感觉AI研究员都快变成物理学家了,又是暗物质又是叠加的...下一步是不是要研究神经网络的量子态?

报告还提到,之前研究中发现的单个特征,在许多相关的文本片段中经常无法激活,即使这些片段被Claude和人类检查认为高度相关。

这说明这些特征可能代表的是更具体的子集,而不是完整地捕捉到某个概念。 多个互补的特征可能需要协作来表示一个概念 。

这份报告给了我们一个重要的提醒: 我们对AI的理解还很肤浅 。就像物理学家研究宇宙暗物质一样,我们可能需要 开发全新的工具和方法来探索神经网络的“暗物质” 。

AI 的" 黑箱 "问题远未解决,不过这也正意味着还有大把的机会等着人们去探索。

准备好你的"显微镜"和"望远镜"了吗? 神经网络的"暗物质"等着你去发现呢!

报告原文👇 👇👇

神经网络的暗物质?

作者:Chris Olah; 编辑:Adam Jermyn

在最近的研究中,我们训练了一个稀疏自编码器,识别出1300万个特征。然而,这些特征似乎只是冰山一角。即使有1300万个特征,我们也只能识别出旧金山某些街区的特征,但Claude却能了解旧金山的小咖啡馆,回答关于街道交叉口的问题。每个旧金山的街区至少有上百家这样的商店、街道、公园等等。这意味着数据集中可能有两个数量级以上的稀有特征,甚至更多。

还有许多其他迹象表明存在极其稀有且数量众多的特征。例如,您可以根据上述逻辑推断出与人相关的特征(Claude知道我是谁,但我们显然还远未提取到“Chris Olah”特征)。但一个更有趣的例子是可能存在“记忆特征”(类似于《Towards Monosemanticity – Finite State Automata》中的概念)——这些特征可能非常多且极其稀疏。这两个例子都说明了一个更广泛的可能性:神经网络可能存在极其稀有且稀疏的特征。尽管这些特征不常见,但它们可能占据了大多数特征。如果没有重大突破,我们可能永远无法解析出比某个稀有程度更低的特征。

从这个角度看,这些稀有特征可能是一种可解释性的“暗物质”。它们可能占据了大多数特征,但由于过于稀有而几乎不可见。我觉得这个比喻有两个好处。首先,我认为它有助于唤起一个科学领域的形象,其中一些研究对象是无法接近的。其次,它提出了一项研究议程,即尝试间接研究这些看不见的记忆特征。

继续这个比喻:字典学习为我们提供了一个望远镜,让我们能够观察神经网络并识别特征。我们最早的实验只能观察到最亮的“星星”(最重要和最常见的特征)。随着字典学习科学的精进,我们可以解析越来越多的微弱“星星”(稀有特征)。但可能的是,神经网络宇宙中很大一部分实际上是不可观察的暗物质。

(这里一个关键的开放性问题是我们是否能找到有效率高几个数量级的字典学习变体,使我们能够解析更多特征。这看起来不是完全不可能,但也非常不确定。这个问题的答案将决定足够稀有的特征是否真的无法解析。)

相关链接

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/88.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>