AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗

clash • 2026年1月18日 am7:40 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

合成数据这个被很多研究者视为AI发展"圣杯"的东西，居然可能会让AI模型越训练越笨？！

这可不是我瞎说，而是来自Nature 论文和 Scale AI CEO Alexandr Wang 的最新警告。

该新研究在Nature上发表，其发现：如果大语言模型反复使用自己生成的数据进行训练，会导致"模型崩溃"（model collapse）。

Scale AI的CEO Alexandr Wang在推特上分享了此研究内容，他表示这是一个重要的发现：

虽然许多研究人员现在将合成数据视为AI的点金石，但世上没有免费的午餐。

关于Alexandr Wang

27岁华裔企业家，Scale AI联合创始人兼CEO

MIT辍学生，17岁曾在Quora担任工程团队经理

2016年与Lucy Guo共同创立Scale AI

公司从自动驾驶数据标注转型为AI训练服务提供商

成功拓展政府合同和生成式AI业务

2023年公司销售额预计超10亿美元

2024年以138亿美元估值融资10亿美元

《福布斯》称其为"最年轻白手起家亿万富翁"

以商业敏锐度和社交能力著称，但也因控制欲强而备受争议

那么，Wang 提及的这项研究到底发现了什么？为什么说合成数据可能是AI界的"庞氏骗局"？我们来一探究竟。

研究发现：模型正在"自我中毒"

研究团队发现，当模型反复使用自己生成的数据进行训练时，会出现三种累积误差：

统计近似误差

函数表达误差

函数近似误差

这三种误差会随着训练代数的增加而不断累积，最终导致模型偏离原始分布。

具体来说，模型会经历以下过程：

早期模型崩溃：模型开始丢失分布尾部的信息

后期模型崩溃：模型收敛到与原始分布相去甚远的状态，通常方差大幅降低

也就是说，模型会逐渐"忘记"低概率事件，最后只能产生高概率、低多样性的输出。

对此，有网友调侃道：

合成数据是AI界的'庞氏骗局'啊！今天骗明天，明天骗后天，最后AI自己把自己骗傻了。

还有人联想到了生物学上的概念：

这不就跟生物界的近亲繁殖一个道理吗？纯种狗智商都不高，AI也躲不过这个坑。

实验验证：从GMM到大语言模型

研究团队不仅在理论上分析了模型崩溃现象，还进行了一系列实验验证。

他们首先在简单的高斯混合模型（GMM）和变分自编码器（VAE）上进行了实验，发现随着训练代数增加，模型确实出现了崩溃现象。

更重要的是，他们还在大语言模型上进行了实验。研究人员使用Meta开源的OPT-125m模型，在WikiText-2数据集上进行了多代训练。

结果显示，即使在微调设置下，大语言模型也无法避免模型崩溃。随着训练代数增加，模型在原始任务上的困惑度（perplexity）不断上升，表现越来越差。

启示：合成数据并非AI的救命稻草

这项研究给AI领域敲响了警钟。Alexandr Wang指出：

合成数据可能会在短期内提高评估结果，但你最终会为模型崩溃付出代价！

他建议，要避免模型崩溃，合成数据必须引入新的信息来源，比如：

使用真实世界数据作为种子

引入人类专家知识

使用形式逻辑引擎

Wang预测：

那些不小心使用合成数据的模型开发者会发现，他们的模型会随着时间变得越来越奇怪和愚蠢。

对此，AI研究者Mehdi Ataei (@AtaeiMe)评论道：

这是热力学在起作用。封闭系统的熵总是增加的。

一个外部信号（即使很小）实际上可能使合成数据变得非常有价值。

有网友wordgrammer(@user183647288) “幽默”指出了合成数据的局限性：

使用合成数据生成而不是与Scale签约，就像使用ChatGPT编写代码而不是雇用开发人员

当然，也有人对Wang的观点提出了质疑：

"但是人类不也是在不断'自我学习'吗？为什么AI就不行？"

对此，Wang回应说：

人类学习过程中会不断接触新事物、新概念，而不是简单地重复已知信息。AI如果只是在自己生成的数据上"嚼"来"嚼"去，自然学不到新东西。

AI发展需要"新鲜血液"

该研究揭示了AI领域一个潜在的危机：过度依赖合成数据可能会导致模型能力退化。

就像生物需要基因多样性来维持种群健康一样，AI模型也需要持续接触真实世界的新数据，才能保持"活力"。

也许， AI的未来之路，既需要高效的自我学习，也离不开与真实世界的持续互动。

那么问题来了，合成数据能否通往AGI？

欢迎分享你的观点！

搜索内容

AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点