AndrejKarpathy别让LLM数有几个r了它不是干这个的
大模型的阅读能力可能还不如三岁小朋友 !
别误会,这不是我瞎说的。OpenAI联合创始人、前特斯拉AI总监的 Andrej Karpathy 发了条推特,揭露了一个惊人的事实:
大语言模型(LLM)阅读文字的方式,就像是在解读一堆乱七八糟的表情符号!

Karpathy 贴了张图:这就是LLM眼中的世界。简直就是 一场表情包狂欢 啊!

他解释道,LLM处理文本时会先把它切成一个个"token"(词元),每个token就像一个小小的象形文字。然后LLM就得从头开始学,根据训练数据的统计规律来理解这堆"象形文字"的含义。
听起来是不是很烧脑?那么问题来了:你觉得LLM看到"草莓"(strawberry)这个词时会是什么样子?
没错,在LLM眼里,这个简单的单词变成了:
👩🏿❤️💋👨🏻🧔🏼🤾🏻♀️🙍♀️🧑🦼➡️🧑🏾🦼➡️🤙🏻✌🏿🈴🧙🏽♀️📏🙍♀️🧑🦽🧎♀🍏💂
看到这里,有没有对LLM多了一丝同情?毕竟它每天都得面对这种"密码"。
不过,这下可把网友们给整不会了。有人疑惑道:
Taelin(@VictorTaelin) 表示困惑:
LLM明明可以完美地把"strawberry"拆分成多个字母,并准确地数出"r"的个数。那为什么我们直接问它这个问题时,它就做不到呢?感觉它好像无法使用自己的能力一样。

对此,Karpathy大佬给出了一个简单粗暴的回答:
没人教过它这么做 。
这回答简直绝了!就像你家的智能音箱,明明能播放音乐,但你让它给你读歌词,它就懵了。因为没人教过它这个姿势!
不过,有些网友不太认同这个说法。比如Taelin又说:
嗯,但是如果你让它稍微思考一下这个问题,它不是可以自己想出这种方法吗?比如,如果我们让它一步步地解决,看起来它总是能得到正确答案。所以,也许问题更多的是过度自信,而不是分词方式?🤔

确实,如果让LLM一步步思考,它往往能得出正确答案。这就像是你让一个数学不好的同学直接说出1+1的结果,他可能会脱口而出"3"。但如果你让他用手指数一下,他就能算对了。
所以,问题可能不在于LLM不会,而是它 太自信了 ,不愿意多想一步。
对此,Gary Basin 🍍(@garybasin)表示赞同:
我认为基本上是正确的。一个足够强大的模型只需要用不同的方式进行提示或调整,就可以克服很多分词器的问题
看来, 关键还是在于如何引导LLM思考 。就像教育孩子一样,重要的不是直接给出答案,而是教会他们如何思考。
不过,也有网友提出了更深层次的思考。Nathan Cahill(@nathanmcahill)说:
如果它不是直接从互联网上引用,它需要先引用一些关于如何解决问题的想法,然后以此为背景来解决问题。
我认为,可以合理地说LLM缺少我们所拥有的心智剧场。它们需要一个能够想象而不说出来的空间。
人们已经尝试过一些技巧来让这种东西发挥作用,但我想知道它是否需要成为架构的原生部分。
这个观点很有意思。它提出了一个关键问题: LLM是否缺少人类那种"心理剧场" ?也就是说,我们人类在回答问题前,往往会在脑海中先"演习"一遍,而LLM可能缺少这种能力。
其他网友也提出了各种有趣的看法:
Rohan Paul(@rohanpaul_ai) 感叹道:
LLM真的是在解码一种数字象形文字。这让你更能体会到那些看似简单的回应背后的复杂性!
确实,想想看,LLM每天要处理的可不是简单的26个字母,而是成千上万个"数字象形文字"。这工作量,换我就够呛!
Yuchen Jin(@Yuchenj_UW)则开玩笑说:
LLM真是外星人 👽🤓😬🦉👩🎓🦁🎹🚵🏻♂️🎤🤖
是这样, 人类理解LLM的难度,可能真的跟理解外星人差不多 !
还有网友提出了更多技术性的建议。比如Nigel(@nigwil)问道:
为什么不基于索引词典定义来进行分词呢?给定的文档由查阅词典中特定子定义的单词组成。理想情况下,这应该是一个活的词典,它有版本控制,并跟踪定义随时间的演变,这样历史文档就能与原意相符。我很好奇为什么这种方法不如当前的方法有效;基于词典的分词器缺少什么?
这个建议听起来很有道理,但可能实施起来比较复杂,维护这样一个"活词典"还要在训练和推理中让LLM 能准确对应好,可能会是一个巨大甚至不大能实现的工程。
最后,有网友提出了一个非常有趣的观点。Lisa(@BadDogBobby)说:
有趣的表情符号表示法!对于"草莓"这个例子,LLM是在token级别上学习数据模式,而不是逐字符学习。所以它们可能无法正确计数"r"是很合理的。这就像人类听觉无法区分非常接近的频率一样 - 基于系统学习和处理信息的方式,感知的粒度是有限的。
再想想,数"草莓"中的"r"真的对语言理解很重要吗?语言是表达我们对世界感知的工具。我们完全可以理解"strewberry"、"strewbery"或"stewberry"。仅仅因为人类可以完美地做到某事而模型做不到,并不一定意味着它更重要或更有意义。
这个观点非常深刻。 它提醒我们,不要用人类的标准去衡量AI 。就像我们不会因为计算器不会写诗就说它不智能一样,我们也不应该因为LLM在某些"人类很擅长"的任务上表现不佳就否定它的价值。
Karpathy 的讨论提供了全新的视角来理解LLM。这让我意识到, AI的思维方式可能与人类完全不同 ,而这种差异既是难点,但也很可能正是未来AI 能力提升的机会点。
最后,不得不说,看完这些讨论,我突然对那些常常被我吐槽"听不懂人话"的AI们多了几分同情。毕竟,它们每天要面对的可是一堆乱七八糟的表情包啊!想想都挺累?
那么问题来了: 既然LLM是用这种奇怪的方式理解世界的,那我们该如何更好地与它们沟通呢?
欢迎在评论区分享你的看法!
相关链接
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/102.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论