您现在的位置是:首页 > 人工智能人工智能
EMNLP2021 Findings|字节火山翻译提出:基于自修正编码器的神经机器翻译
cc博主2021-11-25【人工智能】760人已围观
然而,上面提到的场景往往有一个共同点,那就是被翻译的文本往往是不规范的。无论是聊天时手误导致的错别字,还是视频语音原文识别的错误,都会极大地影响译文质量。因此,实际应用场景下的机器翻译对翻译模型的鲁棒性有很高的要求。
今天就为大家介绍一篇由字节跳动人工智能实验室火山翻译团队发表在 EMNLP 2021 Findings 的短文 - Secoco: Self-Correcting Encoding for Neural Machine Translation。这篇论文让翻译模型在学习翻译任务的同时,学习如何对输入的带噪文本进行纠错,从而改善翻译质量。
论文地址:https://arxiv.org/abs/2108.12137代码地址:https://github.com/rgwt123/Secoco研究背景和动机
神经机器翻译在近些年取得了很大进展,但是大部分工作都是基于干净的数据集。在现实生活中,神经机器翻译系统面对的输入往往都是包含噪声的,这对翻译模型的鲁棒性提出了很大挑战。
之前的翻译鲁棒性工作主要分为三类:
第一类是针对模型生成对抗样例,这些生成的对抗样例被用于一起重新训练模型。
第二类是针对训练数据,通过过滤训练数据中的噪声来提升模型质量。
第三类则是专注于处理输入中包含的天然噪声,他们使用规则,回翻等方法来合成噪声,并混合到原始数据中一起训练。
可以看到,大部分的工作都专注于如何生成噪声,很少探究如何进一步使用它们;本文则想要通过建模从噪声数据到干净数据的修正过程,从而增强模型的鲁棒性。
图1 一个简单的修正过程如图 1 所示,如果想要把一个带噪序列 "abbd" 修正为 "abcd" ,那么可以先删除第三个位置的 "b",再在第三个位置插入 "c"。也就是说,可以将对带噪文本的修正转化为插入和删除的序列,并在编码器端显式地建模这一过程。自修正模型Secoco
作者针对神经机器翻译提出了具有鲁棒性的自修正框架Secoco (Self-correcting Encoding)。
图2 整体模型架构
正如图2左侧所示,Secoco 和普通的翻译模型不同之处在于 Secoco 有两个修正操作的预测模块,这些预测模块基于输入序列的表示生成相应的操作序列。删除预测器 (Deletion Predictor) 根据当前词的表示预测是否要删除,而插入预测器 (Insertion Predictor) 则根据两个连续的词的表示预测中间是否要插入新的词。虽然这种迭代编辑的过程每一步都需要前面的操作,但是为了简化训练过程,插入预测器和删除预测器都是相互独立的,并与普通的翻译任务同时进行训练。
一个关键的问题是如何生成这些训练数据?关键点在于获取从带噪数据转化为干净数据的编辑操作。作者提供了两种方式。一种是针对有带噪数据和对应干净 reference 数据的情况,一种是没有带噪数据的情况。
对于有reference的数据,可以使用类似计算最短编辑距离的方法,获取从带噪数据转化为干净数据的最短编辑过程,然后将替换操作转化为删除-插入操作。
对于没有reference的数据,可以使用基于规则的方法生成伪数据。针对不同的场景,可以设计对应的规则,然后从干净的数据中生成带噪数据,最后反向这个过程就可以得到编辑过程。
训练完成后,便可以进行解码。正如图2右侧展示的,Secoco 有两种解码方式。第一种是仅使用编码器-解码器结构直接进行翻译 (Secoco-E2E),另一种则是对输入进行迭代编辑后再进行翻译 (Secoco-Edit)。
性能一览
作者在三个测试集进行了实验,包括一个基于电视剧的中英对话测试集,一个内部的中英语音翻译测试集,以及加入人工噪声的英德WMT14测试集。
表1 测试集统计
如表1所示,对话测试集包含主语省略,标点省略,错别字等问题;语音测试集包含口语词,错别字等 ASR 引起的问题;WMT14 则包含由规则构造的随机插入,随机删除,重复等问题。
实验结果如表2所示。除了 Secoco 之外,作者还和3种方法进行了对比,分别是将合成的噪声数据加入原始数据中一起训练 (BASE+synthetic);使用修复模型加上翻译模型的 pipeline 级联结构 (REPAIR);以及多编码器-单解码器的结构 [1] (RECONSTRUCTION)。可以看出,所有的方法相较于基线模型都有所提升。Secoco 在三个测试集上都获得了最好的效果。
表2 实验结果
此外,在这三个测试集中,对话测试集明显包含更多的噪声,Secoco 最多可以带来3个 BLEU 的提升。语音测试集由于是由 ASR 导出的,因此最好的结果也仅有12.4。
表3 迭代编辑样例
表格3中给出了一些迭代编辑的具体例子。针对每一句输入,模型对其进行迭代删除和插入操作,直到文本不再发生变化。从例子中可以看到,一次编辑操作可以同时删除或者插入多个词。此外,对于上述的测试集,平均每个句子需要2-3次编辑操作。
总结
针对互联网中非规范输入带来的鲁棒性问题,本文主要介绍了一个具有自我修正能力的神经机器翻译框架 Secoco,该框架通过两个独立的编辑操作预测器建模修正带噪输入的过程。实验表明,Secoco 在多个测试集上都优于基线模型,增强了翻译模型的鲁棒性,并提供了一定的可解释性。
[1] Shuyan Zhou, Xiangkai Zeng, Yingqi Zhou, Antonios Anastasopoulos, and Graham Neubig. 2019. Improving robustness of neural machine translation with multi-task learning. In Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1), pages 565–571.雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
Tags:sssr
相关文章
猜你喜欢
免费ssr节点订阅地址,永久免费v2ray节点每天更新5/15
技术好文免费ssr节点订阅地址,永久免费v2ray节点每天更新,今日周日,为大家提供最新白嫖ssr节点及v2ray节点链接分享建议点击付费节点右侧栏目图。资源在星期二2022年5月15日17点更新。免费资源并不容易。请珍惜它。蜗牛SEO将继续更新可用资源,并尽最大努力...
阅读更多彻底分家?传Arm为上市转让全部安谋股份
芯片Arm总部与其中国合资公司安谋科技的斗争终于落下帷幕。据外媒tom’s HARDWARE报道,Arm已经与其中国合资公司安谋科技正式分道扬镳。Arm将在安谋中的股份出售给了一个独立实体,使安谋科技能够继续向中国使用Arm架构的公司收取授权许可费用。乘着国内...
阅读更多算力是如何影响国家GDP的?
业界本周四,IDC、浪潮信息和清华大学全球产业研究院联合推出了《2021-2022全球计算力指数报告》,报告指出,算力对经济增长的拉动具有长期性和倍增效应:计算力指数平均每提高1点,数字经济和GDP将分别增长3.5‰和1.8‰ 。当一个国家的计算力指数达到40分、...
阅读更多性功能障碍的症状有哪些
健康问答身体健康是非常的重要的,我们平时的生活中一定要注意自己的身体健康,有很多的男性朋友都患上了性功能障碍疾病,当男性朋友患有性功能障碍的时候,会伤害男性的身体和心理,也会对患者的家庭造成一定的影响,那么性功能障碍的症状有哪些呢,下面就一起来具体了解一下吧。1、...
阅读更多突破颜值与性能上限!ALIENWARE 笔记本及外设新品带来惊喜
业界工作日里的打工人,个个都像是踏入了无限循环的副本。时刻保持拼搏、打鸡血的工作状态下,心中的弦总是紧绷的。随着虎年春节开始进入倒计时,“备年货”这一项春节固定节目也提上日程。除了准备美味佳肴、置办新衣外,趁着新年之际为自己或你的TA准备一份全新的数码产品,相信一...
阅读更多
热评文章
2024年V2ray/Clash/SSR/Shadowrocke俄罗斯-美国免费节点梯子更新(11/6)
长期免费ssr节点机场分享-永久v2ray加速器订阅-每日更新(2024/11/4)
2024年V2ray/Clash/SSR/Shadowrocke印度-美国免费节点机场(11/8)
95 后创业者 VAST 宋亚宸:要做3D「抖音」内容平台
RISC-V基金会如何支持HPC和AI领域的公司?
纸飞机汉化包ios_纸飞机汉化包提示有后门
vps加速器免费加速极光_免费加速器永久免费版不用登录
飞机下载链接_飞机下载链接官网
旋风加速度器xfvzcc_旋风加速度器x353cc功能介绍
搞笑电报员口吐芬芳_电报员口吐芬芳无消音