BLEU: a Method for Automatic Evaluation of Machine Translation

2019-07-21

paper
mt

摘要

翻译有三要素：恰当性，准确性，流畅性。本文提出了自动化评估翻译效果的方法。

方法

人工给出若干个参考翻译，计算候选翻译的每个n-gram在参考翻译出现过的次数，除以总n-gram数
对于相同的n-gram，有效次数不超过参考翻译中出现的最大次数

Read More

向量和矩阵的微分

2019-07-19

math

综述

微分是函数，其自变量是原函数自变量发生的微小变化，其值是函数值随其发生的变化量。

Read More

Evaluation methods for unsupervised word embeddings

2019-07-19

摘要

本文研究了无监督词向量的评价方法。

动机

词向量的评价可分为外在评价和内在评价。外在评价将词向量运用在下游任务观察性能的提升，但只能显示出词向量的好处，无法清晰地将词向量与性能度量连接在一起。内在评价通过回答词语之间的语义关系和句法关系的询问得到。但这些数据集都是收集自过去其他领域的工作，而非精心构...

Read More

Improving Distributional Similarity with Lessons Learned from Word Embeddings

2019-07-18

摘要

本文揭示了词向量的优秀表现源于特定的系统设计和超参数优化，而非算法本身。而且，这些方法可以被挪用至传统分布式模型，得到相似的优化。本文还观察到不同方法之间的表现差异大部分是局部的、不显著的。

前置

word和context word

在...

Read More

GloVe: Global Vectos for Word Representation

2019-07-17

词表示学习分为两大方法：Matrix Factorization Methods 和 Shallow Window-based Methods。MFM包括LSA、HAL等。MFM利用低阶近似分解含有语料库统计信息的大矩阵。HAL等方法的主要问题是频繁词对近似度量的贡献过大（如the、and含有很少的语义信息...

Read More