AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗

合成数据 这个被很多研究者视为AI发展"圣杯"的东西,居然可能会让AI模型越训练越笨? !

这可不是我瞎说,而是来自Nature 论文和 Scale AI CEO Alexandr Wang 的最新警告。

AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗-2

该新研究在Nature上发表,其发现: 如果大语言模型反复使用自己生成的数据进行训练,会导致"模型崩溃"(model collapse) 。

Scale AI的CEO Alexandr Wang在推特上分享了此研究内容,他表示这是一个重要的发现:

虽然许多研究人员现在将合成数据视为AI的点金石,但 世上没有免费的午餐 。

关于Alexandr Wang

27岁华裔企业家,Scale AI联合创始人兼CEO

MIT辍学生,17岁曾在Quora担任工程团队经理

2016年与Lucy Guo共同创立Scale AI

公司从自动驾驶数据标注转型为AI训练服务提供商

成功拓展政府合同和生成式AI业务

2023年公司销售额预计超10亿美元

2024年以138亿美元估值融资10亿美元

《福布斯》称其为"最年轻白手起家亿万富翁"

以商业敏锐度和社交能力著称,但也因控制欲强而备受争议

AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗-3

那么,Wang 提及的这项研究到底发现了什么? 为什么说合成数据可能是AI界的"庞氏骗局"? 我们来一 探究竟。

研究发现:模型正在"自我中毒"

研究团队发现,当模型反复使用自己生成的数据进行训练时,会出现三种累积误差:

统计 近似 误差

函数表达 误差

函数近似 误 差

这三种误差会随着训练代数的增加而不断累积, 最终导致模型偏离原始分布 。

AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗-4

具体来说,模型会经历以下过程:

早期模型 崩溃 :模型开始丢失分布尾部的信息

后期模型崩溃 :模型收敛到与原始分布相去甚远的状态,通常方差大幅降低

也就是说,模型会逐渐"忘记"低概率事件,最后只能产生 高概率、低多样性 的输出。

对此,有网友调侃道:

合成数据是AI界的'庞氏骗局'啊!今天骗明天,明天骗后天,最后AI自己把自己骗傻了。

还有人联想到了生物学上的概念:

这不就跟生物界的近亲繁殖一个道理吗?纯种狗智商都不高,AI也躲不过这个坑。

实验验证:从GMM到大语言模型

研究团队不仅在理论上分析了模型崩溃现象,还进行了一系列实验验证。

他们首先在简单的高斯混合模型(GMM)和变分自编码器(VAE)上进行了实验,发现随着训练代数增加,模型确实出现了崩溃现象。

AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗-5

更重要的是,他们还在大语言模型上进行了实验。研究人员使用Meta开源的OPT-125m模型,在WikiText-2数据集上进行了多代训练。

结果显示,即使在微调设置下,大语言模型也无法避免模型崩溃。随着训练代数增加,模型在原始任务上的困惑度(perplexity)不断上升,表现越来越差。

启示:合成数据并非AI的救命稻草

这项研究给AI领域敲响了警钟。Alexandr Wang指出:

合成数据可能会在短期内提高评估结果,但你最终会为模型崩溃付出代价!

他建议,要避免模型崩溃,合成数据必须引入新的信息来源,比如:

使用真实世界数 据作为种子

引入人类专家 知识

使用形 式逻辑引擎

Wang预测:

那些不小心使用合成数据的模型开发者会发现,他们的模型会随着时间变得越来越奇怪和愚蠢。

对此,AI研究者Mehdi Ataei (@AtaeiMe)评论道:

这是热力学在起作用。封闭系统的熵总是增加的。

一个外部信号(即使很小)实际上可能使合成数据变得非常有价值。

有网友wordgrammer(@user183647288) “幽默”指出了合成数据的局限性:

使用合成数据生成而不是与Scale签约,就像使用ChatGPT编写代码而不是雇用开发人员

当然,也有人对Wang的观点提出了质疑:

"但是人类不也是在不断'自我学习'吗?为什么AI就不行?"

对此,Wang回应说:

人类学习过程中会不断接触新事物、新概念,而不是简单地重复已知信息。AI如果只是在自己生成的数据上"嚼"来"嚼"去,自然学不到新东西。

AI发展需要"新鲜血液"

该研究揭示了AI领域一个潜在的危机: 过度依赖合成数据可能会导致模型能力退化 。

就像生物需要基因多样性来维持种群健康一样,AI模型也需要持续接触真实世界的新数据,才能保持"活力"。

也许, AI的未来之路,既需要高效的自我学习,也离不开与真实世界的持续互动 。

那么问题来了, 合成数据能否通往AGI?

欢迎分享你的观点!

相关链接

[1] https://twitter.com/alexandr_wang/status/1816491461149683822

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/105.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>