Meta发布NLLB模型200种语言互译打破语言壁垒网友这是科学吗LeCun回应
Meta推出了一项重磅成果——No Language Left Behind(NLLB-200)模型,旨在实现200种语言的互译,为低资源语言的翻译提供了革命性的解决方案。该进展不仅提高了翻译质量,还扩大了语言覆盖面,致力于消除全球范围内的语言障碍。
NMT与NLLB-200
近年来,神经机器翻译(NMT)的出现将翻译技术推向了新的前沿,但其益处主要集中在高资源语言上,许多低资源语言仍被忽视。NMT模型通常需要大量数据才能生成高质量的翻译,而低资源语言本质上缺乏这种大规模数据。NLLB-200项目通过利用跨语言转移能力,提出了构建大规模多语言模型的新方法,从而使相关语言能够互相学习。
多语言模型的优势
多语言模型相较于双语模型在性能上展现出显著提升。NLLB-200模型支持200种语言,其中低资源语言数量是高资源语言的三倍。结果显示,该模型的表现比之前的最先进系统平均提升了44%。
数据采集与处理
低资源语言的训练数据通常难以获取且成本高昂。NLLB-200项目展示了一种基于蒸馏的句子编码技术LASER3,能够有效地挖掘低资源语言的平行数据。
图1:编码器-解码器架构中不同层的语言相似度余弦得分。
如图1所示,NLLB-200模型在编码器和解码器的不同层中,对语言相似度进行了分析。图中显示了在解码器的后期层(图1d)中,不同语言被分配到不同的专家组中处理,特别是对于阿拉伯语方言、贝努埃-刚果语支以及梵文书写的语言。这表明NLLB-200能够在处理这些语言时,有效地减少不同语言之间的干扰。
模型构建与评估
NLLB-200项目在模型构建方面使用了稀疏门控专家混合模型(Sparsely Gated Mixtures-of-Experts),这种模型能够在相关语言之间实现更好的跨语言转移,同时减少无关语言之间的干扰。
为了评估翻译质量,项目团队创建了FLORES-200,一个大规模多语言基准,用于衡量约4万种翻译方向的翻译质量。
图2:FLORES-200的质量保证分数。
图2展示了FLORES-200基准中各语言的质量保证分数。每种语言在最终通过人工质量测试后,必须达到90%的质量标准。通过这种严格的质量保证流程,确保了NLLB-200模型在不同语言之间的翻译质量。
人工与自动评估
NLLB-200项目除了使用自动评估指标外,还开发了跨语言语义文本相似度(XSTS)和毒性评估(ETOX)。XSTS是一种人类评估协议,确保了各语言之间的一致性;ETOX则是一种检测翻译中新增毒性内容的工具。
图3:聚合的人工质量分数与自动指标之间的相关性。
图3显示了聚合的人工质量分数与自动评估指标(如spBLEU和chrF++)之间的相关性。研究发现,经过校准的人类评估分数与自动评分之间的相关性显著高于未经校准的分数,这表明NLLB-200在多语言翻译中的表现得到了进一步验证。
数据与代码开放
为了服务于低资源语言社区,Meta将本项目中所有的基准、数据、代码和模型作为非商业用途的免费资源公开。相关资源可以在GitHub上获取。
LeCun 强调:这也是科学

Meta首席人工智能科学家 Yann LeCun 也 在推特上分享了Meta最新发布的No Language Left Behind(NLLB)模型。
称该模型能够在200种语言之间进行高质量的双向翻译,即使是数据稀疏的低资源语言。NLLB模型的发布,意味着Meta在人工智能领域取得了重大进展。该模型突破了传统机器翻译模型的局限性,能 够在多种语言之间进行高质量的翻译,包括那些数据稀疏的语言。
却遭网友质问: 这是科学吗?

LeCun 简短回复"Yes" 后,网友又提出关于“科学”与“工程”的定义和区别的疑问。

L eCun 耐心详细地回复 道:
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/188.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论