Python实现简单的机器翻译模型

猿友 2018-08-06 18:36:35 浏览数 (8861)
反馈

本文转载至知乎ID:Charles(白露未晞)知乎个人专栏

下载W3Cschool手机App,0基础随时随地学编程>>戳此了解

导语

好几天没推文的罪恶感让我决定今天来水一篇文章。

和之前“Python玩CartPole”那篇推文一样,这也是来自于PyTorch官方教程的一个简单实例。

为了展示我的诚意,我依旧会由浅入深地讲解本文使用到的基本模型:Seq2Seq以及Attention机制

内容依旧会很长~~~

希望对初入NLP/DeepLearning的童鞋有所帮助~

废话不多说,直接进入正题~~~


相关文件

百度网盘下载链接: https://pan.baidu.com/s/1y3KcMboz_xZJ9Afh5nRkUw

密码: qvhd


参考文献

官方英文教程链接:

http://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html

另外:

对英文文献阅读有困难的同学也不必担心,我已经把这个教程翻译为中文放到了相关文件中。

开发工具

系统:Windows10

Python版本:3.6.4

相关模块:

torch模块;

numpy模块;

matplotlib模块;

以及一些Python自带的模块。

其中PyTorch版本为:

0.3.0


环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

补充说明:

PyTorch暂时不支持直接pip安装。

有两个选择:

(1)安装anaconda3后在anaconda3的环境下安装(直接pip安装即可);

(2)使用编译好的whl文件安装,下载链接为:

https://pan.baidu.com/s/1dF6ayLr#list/path=%2Fpytorch


原理介绍

PS:

部分内容参考了相关网络博客和书籍。

(1)单层网络

单层网络的结构类似下图:

输入的x经过变换wx+b激活函数f得到输出y

相信对机器学习/深度学习有初步了解的同学都知道,这其实就是单层感知机嘛~~~

为了方便起见,我们把它画成这样(请忽视我拙劣的绘图水平):

x为输入向量,y为输出向量,箭头表示一次变换,也就是y=f(Wx+b)。

(2)经典RNN

在实际中,我们会遇到很多序列形的数据:

X1,X2,X3,X4...

例如我们的机器翻译模型,X1可以看作是第一个单词,X2可以看作是第二个单词,以此类推。

原始的神经网络并不能很好地处理序列形的数据,于是救世主RNN出现了,它引入了隐状态h的概念,利用h对序列形的数据提取特征,接着再转换为输出。下面详细说明一下其计算过程(下图中的h0为初始隐藏状态,为简单起见,我们假设它是根据具体模型而设置的一个合理值):

其中:

再重申一遍,所有的字母均为向量,箭头代表对向量做一次变换。

h2的计算与h1类似,并且每一步使用的参数P、Q、b都是一样的,也就是说每个步骤的参数共享:

其中:

以此类推(记住参数都是一样的!!!),该计算可以无限地持续下去(不限于图中的长度4!!!)。

那么RNN的输出又如何得到呢?

RNN的输出值是通过h进行计算的:

其中:

类似地,有y2、y3、y4...:

当然,和前面一样,这里的参数W和c也是共享的

以上就是最经典的RNN结构,我们可以发现其存在一个致命的缺点:

输入和输出序列必须是等长的!

这个缺点导致了经典RNN的适用范围并没有想象中的那么大。

(3)改进经典RNN

情况1(输入为N,输出为1):

假设我们的问题要求我们输入的是一个序列,输出的是一个单独的数值。那么我们只在最后一个h上进行输出变换就可以了:

情况2(输入为1,输出为N):

当输入只是单一数值而非序列时该怎么办呢?

我们可以只在序列开始进行输入计算:

当然你也可以把输入信息x作为每个阶段的输入:

情况3(输入为N,输出为M):

这是RNN最重要的一个变种,这种结构也被称为:

Encoder-Decoder模型,或者说Seq2Seq模型

我们的机器翻译模型就是以它为基础的。

Seq2Seq结构先将输入数据编码成一个上下文量c

其中:

即上下文量c可以直接等于最后一个隐藏状态,也可以是对最后的隐藏状态做一个变换V得到,当然也可以是对所有的隐藏状态做一个变换V得到等等。

上述RNN结构一般称为Encoder

得到c之后,我们需要另外一个RNN网络对其进行解码操作,即Decoder。你可以把这个c当作初始状态h'0输入到Decoder中:

当然你也可以把c当作Decoder每一步的输入:

算了,补充说明一下吧:

缺少输入的部分(比如某些蓝色的方块没有x输入)你完全可以把x作为0处理然后再代入经典RNN所列出的公式中计算输出,其他的也类似。

(4)Attention机制

在Encoder-Decoder结构中,Encoder把所有的输入序列都编码成一个统一的语义特征c后再进行解码,当输入序列较长时,c很可能无法胜任存储输入序列所有信息的任务。

Attention机制很好地解决了上述问题。它在Decoder每一步输入不同的c:

其中,c根据Encoder中的h生成:

aij代表Encoder中第j阶段的hj和Decoder中第i阶段的相关性。

那么这些权重aij该如何确定呢?aij自然也是从模型中学得的,我们一般认为它与Encoder的第j个阶段的隐状态和Decoder的第i-1阶段的隐状态有关。

比如我们要计算a1j:

然后我们需要计算a2j:

以此类推

(5)最后任务:法语翻译成英语

有了前面的铺垫,相信大家都能看懂官网的教程。

在这里我们仅做简单的介绍,详细的建模和实现过程可以参考我翻译的官方文档。

Encoder网络为:

Decoder网络为:

其中,encoder最后一个隐藏状态作为decoder的初始隐藏状态。attention机制的权重计算类似(4)中所述。GRU网络的结构为:

GRU网络结构在此就不作详细的介绍了,篇幅太长的话估计没人看得下去吧,就先这样了~~~

在相关文件中我也提供了4篇相关的论文供感兴趣者阅读与研究。(T_T纯英文的~~~)

结果展示

在cmd窗口运行Translation.py文件即可。

误差曲线:

训练过程中cmd窗口的输出:

模型测试:

作为对比:

和最后一个测试结果一模一样有木有!!!

当然,有些翻译结果就不怎么理想了。因为模型和训练数据过于简单了(T_T这里就不举例了)~~~

最后四句话的attention图:

That's all~~~


更多

感兴趣的同学可以进一步修改模型来获得更好的结果,当然也可以找找其他数据集制作诸如中翻英之类的模型~~~

0 人点赞