创科广场|Meta AI研发200种语言翻译 开放源码扩大训练基础

2022-07-11 09:55

facebook母公司Meta属下Meta AI研究人员,宣布以人工智能开发高质素机械翻译,以NLLB-200命名的单一AI模型,能翻译出200种不同语言,支援多语言翻译挑战,包括了训练低资源语言,也就是只有少数样本供训练AI模型的非主流语系。

故此,主流AI翻译工具,仍不支援,或无法完全支援非主流语言(例如坎巴文和寮国文),常用翻译工具只支援少于25种非洲语言,多素质素不佳。

NLLB-200则可支援55种非洲语言,提供高质素翻译。Meta AI指,NLLB-200双语替换评测分数(BLEU score)在FLORES-101基准所有10,000个方向,较现时最先进翻译工具分数平均。

Meta AI为评估和改善NLLB-200,建立FLORES-200的多对多评估数据库,研究人员可以评估40,000个不同语言方向的效能。Meta AI将开放上述数据集原始码,以便迅速测试及改善翻译模型。FLORES-200可用于评估各种翻译应用,服务只有少数语言资源可供参考的地区。

Meta AI透过自行开发「LASER」工具支援机器学习的翻译,训练的神经网络先以一种语言执行特定任务,然后再相对容易令神经网络适应其他语言的翻译,新一代LASER又改用Google开源Transformer神经网络框架,改以遮罩语言建模(Masked Language Modeling)进行自我监督式训练Transformer模型。

开始应用在视觉运算

Transformer是近年NLP领域关注度最高神经网络框架,2017年由Google研究人员发表题为「Attention Is All You Need」论文后,破天荒提出基于注意力机制(Attention mechanism)框架后,Transformer几乎席卷了「自然语言处理」(Natural Language Processing,NLP),也开始应用在视觉运算。

所有AI模型训练的机械翻译都需要大量数据。对文字翻译系统,通常包括数百万个多种语言之间仔细配对的句子,但英文与低资源语言之间,很难找到大量平行结构句子,经常要透过网络挖掘的数据来克服,结果每种语言文字来源不同,质素通常不佳,数据充斥着错误或不一致的拼法,遗漏重音符号和其他变音符号。

Meta AI开放多语言的超精准翻译模型原始码,希望其他研究人员扩大训练基础,以便NLLB-200更精确翻译至更多语言。Meta AI甚至向非牟利组织提供最多二十万美元补助金,以推广NLLB-200实际应用。

NLLB亦将支援facebook动态消息、Instagram和其他平台每日超过250亿则翻译内容,支援更多语言精准翻译,NLLB有助facebook辨别有害内容和错误资讯、维护廉正选举,遏制网络性剥削和人口贩卖等。社交网络充斥大量失实和偏见内容,更成为激端主义温牀,而多语言翻译可以有助监察,维基百科的编辑人员所用翻译系统,亦采用源自NLLB研究的建模技术和成果。

混合专家克服困难

不过,Transformer框架建立的低资源语言翻译,Microsoft和Google都有新部署,尤其以Google更可能达到上千语言的精确翻译。

Microsoft的NLP也是全球最先进AI研究,Azure Cognitive Service可支援103种语言,Microsoft公布NLP加入Transformer模型,采用Z-Code模型显著提高翻译质素,透过混合专家(MoE)架构,模型同时学习多种语言之间翻译,即使低资源语言缺乏大量训练数据,亦可提高翻译来源语言的质素。

MoE亦是Google研究人员2017年提出,NLP训练藉此提高性能及针对低资源语言。虽然NLLB-200模型亦利用MoE在无损效能情况下,以新结构扩大模型规模,低资源语言自动转送至共用数据容量,只要与设计良好正规系统结合,便能避免语言过多的过度配对问题,改善翻译成果。但NLLB-200在翻译Oromo、冰岛、希腊和亚美尼亚语,效果仍差强人意,显示MoE也须更多数据集。

相对之下,5月份Google在Arxiv公布「为下一千种语言构建机器翻译系统」论文,更令人期待,毕竟Transformer和MoE两个技术突破,都来自Google研究人员,Google又坐拥有全球最多数据,为上千数低资源语言建立了数据集,毋须像Meta AI般四处张罗。

NLLB-200模型从100种语言扩展至200种语言,已存在不少挑战;全球有超过7000种语言,即使NLLB-200可支援200种语言,人类离回到「巴别塔」以前的世界,仍然相当遥远。

關鍵字

最新回应

關鍵字
You are currently at: 187235123.xyz
Skip This Ads
close ad
close ad