LeCun卷积神经网络是思考方式而非架构马斯克我又躺枪了
围绕视觉转换器(ViTs)与卷积神经网络(ConvNets)的讨论引发了热议。Yann LeCun、Saining Xie等专家分享了他们对于这两种神经网络架构的看法。
围观大佬的发言,可以让我们更深入地理解卷积神经网络与自注意力机制的应用场景及其相互关系。
ViTs与ConvNets之争
Harald Schäfer首先在推特上提到,他对@ylecun(Yann LeCun)关于 纯ViTs不实用 的观点表示质疑。

Schäfer提到,他们团队最近将压缩器改为纯ViTs,没有使用卷积层。尽管训练时间较长,但效果很好。左图是压缩后的图像,只有224字节,而右图是原图。

Yann LeCun对此回应称,他并不是说ViTs不实用,而是认为它们在处理高分辨率图像和视频的实时任务时太慢且效率低下。LeCun指出:
在使用自注意力机制前,需要一些带有池化和步幅的卷积层。
自注意力机制对置换等变,这对于低级图像/视频处理没有意义。
全局注意力不可扩展,因为图像和视频中的相关性是高度局部的。
他进一步解释,在高级阶段,当特征表示对象时,使用自注意力机制才有意义。重要的是对象之间的关系和交互,而不是它们的位置。这种混合架构由@alcinos26及其合作者在DETR系统中首创,结合了低级别的卷积/步幅/池化层和高级别的自注意力机制。
LeCun的实时处理架构观
LeCun简要总结了他对实时图像和视频处理最佳架构的看法:
在低级别使用带有步幅或池化的卷积。
在高级别,当特征向量表示对象时,使用自注意力机制。
他还猜测,特斯拉的全自动驾驶(FSD)系统在低级别使用卷积(或更复杂的本地运算符),在高级别结合使用更全局的回路(可能使用自注意力)。他认为,在低级别使用TF 处理图像块嵌入完全是浪费电。

这是要继续打脸马斯克说FSD 不再使用CNN 的言论啊。
思维方式与架构的区别
Saining Xie随后加入讨论,他提出了一个思维实验:尽管ViTs在224x224像素图像上效果很好,但面对百万像素的图像时,要么使用卷积,要么进行图像块并使用共享权重的ViT处理,本质上还是卷积。这让他意识到,卷积神经网络不仅仅是一种架构,更是一种思维方式。

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/194.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论