AI革命的配方ImageNetAlexNet和GPU如何永远地改变了AI

AI 革命的配方是什么?

本文将总结在2000年代后期发生的计算机视觉和更广泛的深度学习革命的成分。拿出你的笔和笔记本——学习模式开启!

目录

2000年代的情况

认识李飞飞和ImageNet

卷积神经网络

NVIDIA推出CUDA

Geoffrey Hinton的实验室和AlexNet的突破

2000年代的情况

2000年代初是暴风雨前的平静。对计算机视觉(CV)潜力的兴奋与工具限制和资源约束的挫败感一样强烈。最显眼的障碍之一是缺乏标准化的数据集。每个研究小组都整理自己的小型图像集合,使得几乎不可能比较不同算法的结果和基准进展。这使得评估新兴CV技术的真实能力变得具有挑战性。但大型标准化数据集在通向有能力的AI的道路上并未被认为是非常重要的。许多团队专注于开发根据共识推动AI行业向前发展的算法。

早期的方法和模型虽然在各自的领域具有开创性,但非常有限。传统的特征提取方法如SIFT(尺度不变特征变换)和HOG(梯度方向直方图)最初对识别图像模式至关重要。但它们难以掌握对象类别的全谱和现实场景的复杂性。LeNet-5,以其优雅的卷积神经网络(CNN)架构,显示了深度学习可以解开手写数字识别的秘密。但对于那些简单数字之外的广阔复杂的对象世界呢?

在我们数据中心的世界里,几乎没有人会想到创建一个真正大规模的具有多样化、高质量、现实世界数据的数据集。

AI革命的配方ImageNetAlexNet和GPU如何永远地改变了AI-2

ImageNet: 我们去了哪里?我们将去哪里?与李飞飞,2017

虽然每个人都关注细节,但没有人关注规模。

认识李飞飞和ImageNet

2006年,时任伊利诺伊大学厄巴纳-香槟分校新教授的李飞飞,试图克服现有AI算法依赖的小型且缺乏多样性的数据集的局限性。糟糕的数据集使模型难以学习一般模式。这种数据的稀缺通常导致过拟合,因为模型会记住有限的训练示例,而不是学习可泛化的特征。在她对现有数据编目方法的研究中,李飞飞发现了普林斯顿心理学家George Miller的一个项目——WordNet,该项目按层次结构组织单词。对WordNet的知识结构方法感到好奇,她联系了接管WordNet项目的Christiane Fellbaum。

这次互动和她随后的阅读给了李飞飞一个类似的层次结构方法应用于视觉数据的想法。2007年初,李飞飞加入普林斯顿教员,并启动了ImageNet项目。她的第一位雇员是同样相信她愿景的教授Kai Li。Kai Li说服博士生Jia Deng转到李飞飞的实验室。

“ImageNet思维的范式转变是,虽然很多人关注模型,但我们关注数据。数据将重新定义我们对模型的思考方式。”

李飞飞 :

https://www.historyofdatascience.com/imagenet-a-pioneering-vision-for-computers/

但你如何构建这样一个数据集?要产生影响,它应该有数百万个标注图像。李飞飞最初计划雇佣本科生,每小时10美元手动寻找图像。但对于一个真正的大型数据集,本科生的速度需要几十年才能完成。

AI革命的配方ImageNetAlexNet和GPU如何永远地改变了AI-3

ImageNet: 我们去了哪里?我们将去哪里?与李飞飞,2017

https://learning.acm.org/techtalks/ImageNet

然后团队考虑使用CV算法从互联网上挑选照片,但在尝试了几个月后,他们决定这不可持续:机器生成的数据集只能匹配当时最好的算法。

但许多人仍然认为更好的算法,而不是更多的数据,是进步的关键。这太超前了。ImageNet未能获得联邦资助,受到了对其重要性和可行性的批评和怀疑。需要巨大的信心才能坚持并克服所有障碍。还有一些运气:在走廊里的一次偶然对话中,一名研究生问李飞飞是否知道亚马逊Mechanical Turk。她决定试一试——项目就此起飞。

“他向我展示了这个网站,我可以告诉你,字面上那天我就知道ImageNet项目会成功。突然之间,我们找到了一种可以扩展的工具,而不是雇佣普林斯顿的本科生。”

李飞飞

https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world

花了两年时间,来自167个国家的49,000名工人创建了12个子树,包含5247个同义词集和总计320万张图像(旨在在接下来的两年内完成约5000万张图像的构建,详见原始论文:

https://web.archive.org/web/20210115185228/http://www.image-net.org/papers/imagenet_cvpr09.pdf

2009年,团队在迈阿密的计算机视觉与模式识别会议(CVPR)上首次展示了ImageNet。

作为一篇海报。

因为,几乎没有人真正相信这样的数据集会产生影响。

继续坚持她的愿景,2010年李飞飞和她的团队决定设立ImageNet挑战赛,以“民主化”使用大规模数据集训练计算机视觉算法的理念,并为在庞大且多样的数据集上评估不同图像识别算法的性能设定了基准。他们认为,为了真正推进该领域,有必要扩大受众范围,鼓励更多研究人员探索ImageNet的潜力。

仅此一项是否就开始了深度学习革命?当然不是。与此同时和稍早些时候,还有其他一些非常重要的发展。

卷积神经网络

相应许多人都了解LeCun等人的LeNet。你知道他是如何对神经网络产生兴趣的吗?Yann LeCun在1989年首次引入卷积神经网络(CNN),他最初研究的是电气工程。他在本科期间通过阅读 皮亚杰与乔姆斯基关于语言习得的争论 :https://www.sciencedirect.com/science/article/abs/pii/0010027794900345,(Piattelli-Palmarini,1983)对智能机器产生了兴趣。书中Seymour Papert提到的Rosenblatt感知器激发了LeCun对神经网络的探索。具有讽刺意味的是,Papert和Marvin Minsky曾在60年代末期对神经网络研究的衰退和第一次AI寒冬做出了贡献。

到1998年,LeNet-5在MNIST数据集上实现了99.05%的准确率,标志着CNN发展的一个重要里程碑,并激励了一些AI实验室继续研究CNN。CNN的主要障碍是计算限制,训练深度CNN耗时且资源密集。

当时,大多数深度学习工作都是在中央处理器(CPU)上完成的,通常是小规模的实验,重点关注各种学习算法和架构。深度学习社区认为CNN具有巨大潜力,但他们受限于CPU的限制。NVIDIA准备改变这一现状。

NVIDIA推出CUDA

第一批注意到CPU巨大限制的人不是机器学习从业者。1993年,Jensen Huang、Chris Malachowsky和Curtis Priem意识到视频游戏中的3D图形对PC中央处理器(CPU)提出了大量重复的、数学密集型的要求。如果专用芯片能更快地并行执行这些计算会怎么样?第一批Nvidia GeForce图形加速芯片诞生了。最初为视频游戏创建GPU(图形处理单元),很快NVIDIA团队,特别是Jensen Huang,有了更大的想法。

2006年11月,NVIDIA推出了通用GPU计算的突破性解决方案——CUDA(计算统一设备架构)。CUDA是一个并行计算平台和编程模型,利用NVIDIA GPU的强大功能,比传统的基于CPU的方法更有效地解决复杂的计算问题。它被设计为与C、C++、Fortran和Python等流行编程语言兼容。现在,机器学习群体可以加入并使用它了。

一些AI先驱立即开始用计算和GPU进行实验。

根据 Juergen Schmidhuber :https://people.idsia.ch/~juergen/computer-vision-contests-won-by-gpu-cnns.html 的说法,2010年,他的团队展示了“GPU可以用来通过简单的反向传播训练深度标准监督神经网络,比CPU快50倍,并通过模式扭曲打破了长期存在的著名MNIST基准记录。这完全是关于GPU的——没有必要的新NN技术,没有无监督的预训练,只有几十年前的东西。”大约同时,Andrew Ng在斯坦福的实验室也在向GPU进行大规模深度学习的转变。对于机器学习社区来说,GPU仍然是新颖的,发展主要是由直觉引导的。理由是强大的计算基础设施可以显著加速统计模型的训练,解决大数据固有的许多扩展挑战。当时,这是一个有争议且有风险的举动。

现在回到另一个障碍:缺乏对大规模标准化数据集的愿景。

Geoffrey Hinton的实验室和AlexNet的突破

Geoffrey Hinton。引用大英百科全书https://www.britannica.com/biography/Geoffrey-Hinton 的话:“他的家族包括多位数学家,其中有Mary Everest Boole和她的丈夫George Boole,他们的逻辑代数(称为布尔逻辑)成为现代计算的基础。其他著名亲属包括Joan Hinton,她是参与曼哈顿计划的少数女性之一;Charles Howard Hinton,因可视化高维度而著名的数学家;以及George Everest,以其名字命名的珠穆朗玛峰的测量员。”

Geoffrey Hinton不能让人失望。他获得了实验心理学学位和人工智能博士学位,1978年。1987年,他成为多伦多大学的教授。他的实验室成为了一个连续的AI人才工厂:https://www.cs.toronto.edu/~hinton/fullcv2023.pdf

他的学生之一是Alex Krizhevsky和Ilya Sutskever。他们不是第一个描述CUDA上的CNN。AlexNet带来的变化涉及使用相对标准的卷积神经网络(ConvNet),但大大扩展了其规模:

在大规模的ImageNet数据集上进行训练

高效地用CUDA/C++实现(你可以在这里找到AlexNet的原始代码):https://github.com/ulrichstern/cuda-convnet。这种方法利用了模型并行性,将并行卷积流分布在两个GPU上,这在当时相当创新。

AI革命的配方ImageNetAlexNet和GPU如何永远地改变了AI-4

图片来源:维基百科:https://en.wikipedia.org/wiki/AlexNet

根据原始论文https://papers.nips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf,AlexNet的大型深度卷积神经网络在ImageNet LSVRC-2010比赛的120万张高分辨率图像上进行了训练,取得了破纪录的成绩。该网络的架构包括五个卷积层和三个全连接层,其深度被认为是其性能的关键。为了防止过拟合,使用了数据增强技术,如图像平移、水平反射和改变RGB通道强度。此外,还使用了一种称为“dropout”的正则化方法,在训练过程中随机将每个隐藏神经元的输出设置为零。网络使用带有特定参数设置的随机梯度下降进行训练,在ILSVRC-2010测试集上实现了37.5%的top-1错误率和17.0%的top-5错误率。结果表明,大型深度卷积神经网络在图像分类任务中的潜力,并表明通过更大的网络和数据集可以实现进一步的改进。

AI革命的配方ImageNetAlexNet和GPU如何永远地改变了AI-5

图片来源:原始论文

AlexNet有几个创新之处:

ReLU非线性: 使用ReLU作为激活函数,与传统的饱和非线性函数如tanh相比,加快了深度神经网络的训练速度。

多GPU训练: 实现跨GPU并行化,允许训练无法在单个GPU上容纳的更大网络。

局部响应归一化: 引入了一种受实际神经元侧抑制启发的归一化方案,促进神经元输出之间的竞争,帮助泛化。

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/208.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>