Logging in Python

2019-07-25

何时logging

目标 工具
命令行显示普通的控制台输出 Read More

Assessing the Ability of Self-Attention Networks to Learn Word Order

摘要

SAN(Self-attention networks)被认为不善于学习位置信息。但这种观点没有被证实,而且也解释不了为何在缺少位置信息的情况下仍然可以有好的翻译表现。本文提出了一个新的词语重排检测(word reordering detection, WRD)任务,量化SAN和RAN对词序信息的学习能力。该任务随机移动一个词语的位置,用模型检测...

Read More

Context Gates for Neural Machine Translation

摘要

直觉上,内容词的生成更依赖于源语言上下文,功能词的生成更依赖于目标语言上下文。传统NMT没有有效控制源语言和目标语言的影响,容易生成流畅但不够恰当的翻译。本文提出context gates,动态控制源语言和目标语言对目标词生成的影响比例。

Context Gate

Read More

Dependency Parsing笔记

语法结构

语法结构分为两种:constituency structures和dependency structures

Dependency Structure

某个单词(dependent)依赖于另一个唯一的单词(head)的依赖关系构成。所有依赖关系形成一个树结...

Read More

Attention is all you need

2019-07-23

摘要

此前最好的序列转换模型都基于encoder-decoder模型。本文提出Transformer,完全基于Attention机制。模型在两个MT任务上做了实验,效果很好而且比其他模型并行性更好、训练时间更短。

动机

RNN必须顺序计算,不能并行,效率比较差。而Attention机制可以并行,可以无视距...

Read More

神经网络笔记

2019-07-22

激活函数

Sigmoid


有两个缺点:

  1. 输入过大时,梯度会消失
  2. 不是以0为中心的。输出总是大于0,导致下一个神经元内的...
Read More

PyTorch笔记

与tensorflow的对比

tensorflow中,需要先定义静态的计算图,每次执行时,只有输入的数据不同,而计算图相同; 而pytorch中,每次执行都需要重新定义动态的计算图。
静态图的好处是可以事先最优化图的结构或定义好计算结点的分布。坏处是面对一些结构与数据相关的模型比较麻烦。比如RNN的长度可能随样本长度...

Read More