AndrejKarpathyGPT2五岁了当年OpenAI的宝贝现在人人都能家里养了
今天我们要跟着 Andrej Karpathy 重温一下AI界的"恐龙时代"——GPT-2的诞生!

Andrej Karpathy 发文说 五年前,OpenAI这帮疯狂科学家们像是发现了核弹一样,战战兢兢地宣布了GPT-2的诞生。 他们甚至不敢完全公开这个"危险"的模型,生怕它会被用来发动网络攻击,或者生成假新闻。 那时候的GPT-2,就像是刚出生的哥斯拉宝宝,人类还不知道该怎么驯养它。

但是, 时光飞逝,科技进步 。现在,你只需要花672美刀,就能在24小时内在一个8XH100 GPU节点上训练出自己的GPT-2。这就像是从"只有NASA才能造火箭"变成了"隔壁老王在后院就能组装一个"!
为什么会这样?因为这五年来, 硬件(H100 GPU)、软件(CUDA、cuBLAS、cuDNN、FlashAttention)和数据质量(FineWeb-Edu数据集)都有了质的飞跃 。而且,咱们的算法还是老样子,就跟GPT-2/3论文里说的一样。
更爽的是,现在用llm.c这个项目,你甚至不需要搞什么conda环境、Python解释器、pip安装之类的麻烦事。 只要你有一台云GPU节点(比如Lambda上的),装好NVIDIA cuDNN和NCCL/MPI,下载数据,编译运行,分分钟就能开始训练 。24小时后,你就能欣赏到你的AI宝宝给你讲述安第斯山脉里会说英语的独角兽的故事了。
Julian 256 ₿(@ julian256 ) 感叹道:
GPT-2只是5年前的事??这发展速度太疯狂了。
确实,现在回头看GPT-2,就像是在看石器时代的工具。但是,正是这些"原始"的发明,为今天的AI盛世铺平了道路。
Dan McAteer(@DannyMcAteer8) 更是大胆预测:
真疯狂,想想看,到了2028年左右,我们看GPT-4可能就像现在看GPT-2一样了。
这话说的,怕是到2028年,我们连GPT-4是啥都忘了吧?说不定那时候,AI已经在火星上开派对了!
不过,别高兴得太早。Karpathy大神的400B token GPT-2训练过程中,在330B时突然爆炸了。这就像是你辛辛苦苦养大的熊孩子,眼看要考上大学了,结果高考前夜突然叛逆,跑去当了网红主播。AI的成长之路,还是充满了未知啊!
最后,让我们向那些在互联网上自发聚集、为llm.c项目做出贡献的开发者们致敬。正是因为有你们这群疯狂的极客,我们才能在家里就养出一只属于自己的AI宝宝。
记住, 在AI的世界里,今天的"不可能",可能就是明天的"小菜一碟" 。所以,系好安全带,继续狂飙吧,AI的未来,我们说了算!
Karpathy 原文链接
2019年,OpenAI发布了GPT-2,详细内容见此帖子:Better Language Models: https://openai.com/index/better-language-models/
如今,五年后,你可以花费约672美元,在一台配备8个H100 GPU节点的服务器上运行24小时来训练你自己的模型。我们最新的llm.c帖子详细介绍了这一过程:llm.c discussions: https://github.com/karpathy/llm.c/discussions/677
令人难以置信的是,过去五年间,由于计算硬件(如H100 GPU)、软件(如CUDA、cuBLAS、cuDNN、FlashAttention)以及数据质量(如FineWeb-Edu数据集)的改进,成本显著下降。在这个实验中,算法保持不变,遵循GPT-2/3论文中的方法。
因为llm.c是用C/CUDA直接实现的GPT训练,所需条件非常简单——无需配置conda环境、Python解释器或安装pip包。你只需启动一个云GPU节点(例如在Lambda上),选择性地安装NVIDIA cuDNN、NCCL/MPI,下载.bin数据分片,编译并运行,几分钟内即可开始训练。然后,等待24小时,你就可以生成关于安第斯山脉中说英语的独角兽的样本了。
对我而言,这是一项重要的里程碑,因为整个llm.c项目始于我想为一个教育视频重现GPT-2,却因一些PyTorch问题而陷入困境,最终决定从头用C/CUDA重写整个过程。这比我预期的旅程要长,但非常有趣,我学到了更多的CUDA,也结识了不少朋友,现在的llm.c非常出色。它大约有5000行代码,编译和运行速度非常快,几乎不需要等待,内存占用恒定,以混合精度训练,通过NNCL进行多节点分布式训练,具有位级确定性,MFU稳定在约50%。总体来说,非常不错。
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/135.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论