2019年4月,由国际计算语言学协会ACL举办的WMT 2019国际机器翻译比赛的客观评测结果揭晓,微软亚洲研究院机器学习组在参加的11项机器翻译任务中,有8项获得了第一名,另外3项获得第二名,凭借多维度的技术创新成为冠军团队。
WMT是全球学术界公认的国际顶级机器翻译比赛,自2006年至今,已经成功举办14届。每一次比赛都是全球各大高校、科技公司与学术机构展示各自机器翻译实力的较量,更是见证机器翻译技术持续进步的窗口。今年共有来自全球的50多支队伍参加比赛,包括微软、Facebook、百度、字节跳动、平安、日本情报通信研究机构等。
大赛共设置了19项不同语言之间的翻译任务,微软亚洲研究院参加了11项, 其中8项翻译任务荣获第一,包括:德语-英语、德语-法语、法语-德语、中文-英语、英语-立陶宛语、英语-芬兰语、俄语-英语、英语-德语。另外3项任务获得第二,包括:立陶宛语-英语、芬兰语-英语、英语-哈萨克语。结果显示,此次大赛的亚军团队在3项任务中获得了第一,季军团队则有两项获得第一,来自微软亚洲研究院的神经网络机器翻译算法的表现遥遥领先于其他参赛队伍。

(获胜队伍展示:横向为源语种,纵向为目标语种)
早在2018年3月,由微软亚洲研究院与微软雷德蒙研究院共同研发的机器翻译系统便在通用新闻报道测试newstest2017的中-英测试集上,达到了可与人工翻译媲美的水平。这是首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统,用到的技术包括对偶学习、推敲网络、联合训练和一致性规范等。
在WMT 2019中,微软亚洲研究院机器学习组再次将多个创新的算法运用在翻译任务中,从学习机制、预训练、网络架构优化、数据增强等方面大大提升了机器翻译结果的质量。此次使用的创新算法包括:MADL(Multi-agent dual learning,多体对偶学习)、MASS(Masked sequence to sequence pre-training,屏蔽序列到序列的预训练)、NAO(Automatic neural architecture optimization,自动神经网络架构优化)、SCA(Soft contextual data augmentation,软性上下文数据增强)。大部分算法已经被机器学习领域的各个顶级会议收录,其中,关于NAO的论文已被NIPS 2018收录,关于MADL的论文已被ICLR 2019收录,关于MASS的论文则被ICML 2019收录。
微软亚洲研究院的研究员们在这次大赛的每项翻译任务上采用了上述不同的技术,便已取得不俗的成绩。未来,研究团队计划将这四个层面的创新技术整合,并且通过与产品部门的合作,将新技术尽快转化到微软翻译产品中。
(转载)



