Logging in Python 2019-07-25 python logging 何时logging 目标 工具 命令行显示普通的控制台输出 Read More Assessing the Ability of Self-Attention Networks to Learn Word Order 2019-07-25 paper nmt seq2seq word-order mt 摘要 SAN(Self-attention networks)被认为不善于学习位置信息。但这种观点没有被证实,而且也解释不了为何在缺少位置信息的情况下仍然可以有好的翻译表现。本文提出了一个新的词语重排检测(word reordering detection, WRD)任务,量化SAN和RAN对词序信息的学习能力。该任务随机移动一个词语的位置,用模型检测... Read More Context Gates for Neural Machine Translation 2019-07-24 paper nmt mt seq2seq 摘要 直觉上,内容词的生成更依赖于源语言上下文,功能词的生成更依赖于目标语言上下文。传统NMT没有有效控制源语言和目标语言的影响,容易生成流畅但不够恰当的翻译。本文提出context gates,动态控制源语言和目标语言对目标词生成的影响比例。 Context Gate Read More Dependency Parsing笔记 2019-07-23 dependency-parsing notes 语法结构 语法结构分为两种:constituency structures和dependency structures Dependency Structure 某个单词(dependent)依赖于另一个唯一的单词(head)的依赖关系构成。所有依赖关系形成一个树结... Read More Attention is all you need 2019-07-23 transformer 摘要 此前最好的序列转换模型都基于encoder-decoder模型。本文提出Transformer,完全基于Attention机制。模型在两个MT任务上做了实验,效果很好而且比其他模型并行性更好、训练时间更短。 动机 RNN必须顺序计算,不能并行,效率比较差。而Attention机制可以并行,可以无视距... Read More 神经网络笔记 2019-07-22 ml notes 激活函数 Sigmoid 有两个缺点: 输入过大时,梯度会消失 不是以0为中心的。输出总是大于0,导致下一个神经元内的... Read More PyTorch笔记 2019-07-22 pytorch notes python 与tensorflow的对比 tensorflow中,需要先定义静态的计算图,每次执行时,只有输入的数据不同,而计算图相同; 而pytorch中,每次执行都需要重新定义动态的计算图。 静态图的好处是可以事先最优化图的结构或定义好计算结点的分布。坏处是面对一些结构与数据相关的模型比较麻烦。比如RNN的长度可能随样本长度... Read More Sequence to Sequence Learning with Neural Networks 2019-07-21 paper seq2seq nmt mt 摘要 本文提出了用多层LSTM编码句子,再用多层LSTM解码句子的翻译模型,同时可用于其它序列到序列的NLP任务。同时发现了反转源语言句子(目标语言不反转)可以改善模型表现。 Read More ← 上一页 下一页 →
Assessing the Ability of Self-Attention Networks to Learn Word Order 2019-07-25 paper nmt seq2seq word-order mt 摘要 SAN(Self-attention networks)被认为不善于学习位置信息。但这种观点没有被证实,而且也解释不了为何在缺少位置信息的情况下仍然可以有好的翻译表现。本文提出了一个新的词语重排检测(word reordering detection, WRD)任务,量化SAN和RAN对词序信息的学习能力。该任务随机移动一个词语的位置,用模型检测... Read More
Context Gates for Neural Machine Translation 2019-07-24 paper nmt mt seq2seq 摘要 直觉上,内容词的生成更依赖于源语言上下文,功能词的生成更依赖于目标语言上下文。传统NMT没有有效控制源语言和目标语言的影响,容易生成流畅但不够恰当的翻译。本文提出context gates,动态控制源语言和目标语言对目标词生成的影响比例。 Context Gate Read More Dependency Parsing笔记 2019-07-23 dependency-parsing notes 语法结构 语法结构分为两种:constituency structures和dependency structures Dependency Structure 某个单词(dependent)依赖于另一个唯一的单词(head)的依赖关系构成。所有依赖关系形成一个树结... Read More Attention is all you need 2019-07-23 transformer 摘要 此前最好的序列转换模型都基于encoder-decoder模型。本文提出Transformer,完全基于Attention机制。模型在两个MT任务上做了实验,效果很好而且比其他模型并行性更好、训练时间更短。 动机 RNN必须顺序计算,不能并行,效率比较差。而Attention机制可以并行,可以无视距... Read More 神经网络笔记 2019-07-22 ml notes 激活函数 Sigmoid 有两个缺点: 输入过大时,梯度会消失 不是以0为中心的。输出总是大于0,导致下一个神经元内的... Read More PyTorch笔记 2019-07-22 pytorch notes python 与tensorflow的对比 tensorflow中,需要先定义静态的计算图,每次执行时,只有输入的数据不同,而计算图相同; 而pytorch中,每次执行都需要重新定义动态的计算图。 静态图的好处是可以事先最优化图的结构或定义好计算结点的分布。坏处是面对一些结构与数据相关的模型比较麻烦。比如RNN的长度可能随样本长度... Read More Sequence to Sequence Learning with Neural Networks 2019-07-21 paper seq2seq nmt mt 摘要 本文提出了用多层LSTM编码句子,再用多层LSTM解码句子的翻译模型,同时可用于其它序列到序列的NLP任务。同时发现了反转源语言句子(目标语言不反转)可以改善模型表现。 Read More ← 上一页 下一页 →
Dependency Parsing笔记 2019-07-23 dependency-parsing notes 语法结构 语法结构分为两种:constituency structures和dependency structures Dependency Structure 某个单词(dependent)依赖于另一个唯一的单词(head)的依赖关系构成。所有依赖关系形成一个树结... Read More
Attention is all you need 2019-07-23 transformer 摘要 此前最好的序列转换模型都基于encoder-decoder模型。本文提出Transformer,完全基于Attention机制。模型在两个MT任务上做了实验,效果很好而且比其他模型并行性更好、训练时间更短。 动机 RNN必须顺序计算,不能并行,效率比较差。而Attention机制可以并行,可以无视距... Read More
PyTorch笔记 2019-07-22 pytorch notes python 与tensorflow的对比 tensorflow中,需要先定义静态的计算图,每次执行时,只有输入的数据不同,而计算图相同; 而pytorch中,每次执行都需要重新定义动态的计算图。 静态图的好处是可以事先最优化图的结构或定义好计算结点的分布。坏处是面对一些结构与数据相关的模型比较麻烦。比如RNN的长度可能随样本长度... Read More
Sequence to Sequence Learning with Neural Networks 2019-07-21 paper seq2seq nmt mt 摘要 本文提出了用多层LSTM编码句子,再用多层LSTM解码句子的翻译模型,同时可用于其它序列到序列的NLP任务。同时发现了反转源语言句子(目标语言不反转)可以改善模型表现。 Read More