AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗
合成数据 这个被很多研究者视为AI发展"圣杯"的东西,居然可能会让AI模型越训练越笨? !
这可不是我瞎说,而是来自Nature 论文和 Scale AI CEO Alexandr Wang 的最新警告。

该新研究在Nature上发表,其发现: 如果大语言模型反复使用自己生成的数据进行训练,会导致"模型崩溃"(model collapse) 。
Scale AI的CEO Alexandr Wang在推特上分享了此研究内容,他表示这是一个重要的发现:
虽然许多研究人员现在将合成数据视为AI的点金石,但 世上没有免费的午餐 。
关于Alexandr Wang
27岁华裔企业家,Scale AI联合创始人兼CEO
MIT辍学生,17岁曾在Quora担任工程团队经理
2016年与Lucy Guo共同创立Scale AI
公司从自动驾驶数据标注转型为AI训练服务提供商
成功拓展政府合同和生成式AI业务
2023年公司销售额预计超10亿美元
2024年以138亿美元估值融资10亿美元
《福布斯》称其为"最年轻白手起家亿万富翁"
以商业敏锐度和社交能力著称,但也因控制欲强而备受争议

那么,Wang 提及的这项研究到底发现了什么? 为什么说合成数据可能是AI界的"庞氏骗局"? 我们来一 探究竟。
研究发现:模型正在"自我中毒"
研究团队发现,当模型反复使用自己生成的数据进行训练时,会出现三种累积误差:
统计 近似 误差
函数表达 误差
函数近似 误 差
这三种误差会随着训练代数的增加而不断累积, 最终导致模型偏离原始分布 。

具体来说,模型会经历以下过程:
早期模型 崩溃 :模型开始丢失分布尾部的信息
后期模型崩溃 :模型收敛到与原始分布相去甚远的状态,通常方差大幅降低
也就是说,模型会逐渐"忘记"低概率事件,最后只能产生 高概率、低多样性 的输出。
对此,有网友调侃道:
合成数据是AI界的'庞氏骗局'啊!今天骗明天,明天骗后天,最后AI自己把自己骗傻了。
还有人联想到了生物学上的概念:
这不就跟生物界的近亲繁殖一个道理吗?纯种狗智商都不高,AI也躲不过这个坑。
实验验证:从GMM到大语言模型
研究团队不仅在理论上分析了模型崩溃现象,还进行了一系列实验验证。
他们首先在简单的高斯混合模型(GMM)和变分自编码器(VAE)上进行了实验,发现随着训练代数增加,模型确实出现了崩溃现象。

更重要的是,他们还在大语言模型上进行了实验。研究人员使用Meta开源的OPT-125m模型,在WikiText-2数据集上进行了多代训练。
结果显示,即使在微调设置下,大语言模型也无法避免模型崩溃。随着训练代数增加,模型在原始任务上的困惑度(perplexity)不断上升,表现越来越差。
启示:合成数据并非AI的救命稻草
这项研究给AI领域敲响了警钟。Alexandr Wang指出:
合成数据可能会在短期内提高评估结果,但你最终会为模型崩溃付出代价!
他建议,要避免模型崩溃,合成数据必须引入新的信息来源,比如:
使用真实世界数 据作为种子
引入人类专家 知识
使用形 式逻辑引擎
Wang预测:
那些不小心使用合成数据的模型开发者会发现,他们的模型会随着时间变得越来越奇怪和愚蠢。
对此,AI研究者Mehdi Ataei (@AtaeiMe)评论道:
这是热力学在起作用。封闭系统的熵总是增加的。
一个外部信号(即使很小)实际上可能使合成数据变得非常有价值。
有网友wordgrammer(@user183647288) “幽默”指出了合成数据的局限性:
使用合成数据生成而不是与Scale签约,就像使用ChatGPT编写代码而不是雇用开发人员
当然,也有人对Wang的观点提出了质疑:
"但是人类不也是在不断'自我学习'吗?为什么AI就不行?"
对此,Wang回应说:
人类学习过程中会不断接触新事物、新概念,而不是简单地重复已知信息。AI如果只是在自己生成的数据上"嚼"来"嚼"去,自然学不到新东西。
AI发展需要"新鲜血液"
该研究揭示了AI领域一个潜在的危机: 过度依赖合成数据可能会导致模型能力退化 。
就像生物需要基因多样性来维持种群健康一样,AI模型也需要持续接触真实世界的新数据,才能保持"活力"。
也许, AI的未来之路,既需要高效的自我学习,也离不开与真实世界的持续互动 。
那么问题来了, 合成数据能否通往AGI?
欢迎分享你的观点!
相关链接
[1] https://twitter.com/alexandr_wang/status/1816491461149683822
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/105.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论