Reference
Modeling Coverage for Neural Machine Translation
摘要
注意力机制容易忽视过去的对齐信息,导致过额翻译或欠额翻译。本文提出coverage mechanism,通过维护一个coverage向量,跟踪注意力历史,提高NMT系统对未翻译的词语的考虑。
动机
- attention没有考虑翻译的历史信息。
模型
General Model
- $g_{update}(\cdot)$是解码过程中序列第i步的注意力$\alpha_{i,j}$产生后,coverage向量的更新函数。
- $C_{i,j}$是d维的coverage向量,总结了第i步为止,对$h_j$的注意力历史
- $\Psi$是辅助输入
Linguistic Coverage Model
- $\Phi_j$是预定义的权重,表示词语$x_j$期望被翻译的次数。可定义为:$\Phi_j=N\cdot \sigma(U_fh_j)$ (Fertility)。其中N为最大次数,$\sigma(\cdot)$是sigmoid函数,$U_f$是权重矩阵。
Neural Network Based Coverage Model
可用一个RNN来迭代$C_{i,j}$
Integrating Coverage into NMT
修改attention的计算:
Objective
加入一个辅助目标函数显式学习$\Phi$:
这可以改善对齐质量但会降低翻译质量。
评估
SAER(S??? Alignment Error Rate)
- A是候选对齐,S和P是确定和可能的连接集合(人为标注,且$S \subseteq P$),M表示对齐矩阵。
其它要点
- Moses(Koehn et al., 2007),一个基于短语的SMT系统
- GroundHog(Bahdanau et al., 2015),将attention引入Seq2Seq的那个模型
