基于神经网络的机器翻译

郑棋（昆明理工大学信息工程与自动化学院，云南昆明 650000）

摘要 以往的机器翻译模型在处理大规模的自然语言上经常会碰到信息错误、信息丢失、信息不全等情况，从而容易出现信息的错翻错传，针对这种问题，提出了一种基于神经网络的机器翻译方法。创建神经网络的机器翻译模型，在机器翻译技术中把人工神经网络这样的人工智能技术融入进来，可以有效地减少在对自然语言进行机器翻译的时候出现的信息错翻错传现象。

关键词 机器翻译；人工智能；人工神经网络；

0. 引言

把一门自然语言翻译成另一门含义相同的自然语言的过程主要是通过机器（计算机）来实现的。这样的一个转换过程就是机器翻译。随着信息时代的到来,技术不同的国家之间的文化沟通日益密切,自然语言之间的互译规模也在不断的壮大。因此，机器翻译已逐渐成为自然语言翻译的一项重要课题。

词汇和语法规则是机器翻译的最早依据，也就是说，最早的机器翻译是基于手工规则的。但是，这种早期的机器翻译方式还不能够了解语言神经的运作方式，所以它很容易造成翻译的结果漏洞百出。

目前，随着人工智能技术的快速发展，人们提出了一种统计机器翻译系统，并得到了大量推广。统计机器翻译方法是指建立存有大量的平行词汇的数据库，再通过对数据库知识的学习，经过统计分析，最终匹配合理的词汇短语，避免不合理的短语出现在句子中。如今统计机器翻译方法由于它的强大的短语翻译功能而得到了大量运用。虽然，统计机器翻译方法对于翻译词汇短语十分精准，但对于翻译句子的效果就不尽人意。直到提出了基于人工神经网络这项机器翻译方法，该机器翻译方法能够有效地解决自然语言翻译对于在句子翻译中存在的缺陷。

1. 人工神经网络与机器翻译

1.1 人工神经网络

人工神经网络（ANN）本质上是一个模拟人脑突触的连接结构的数学模型，并通过这种结构对信息进行处理。因此人们在学术界将其称为神经网络。人工神经网络是仿造大脑神经网络工作模式的一种操作模型，它由多个神经元组成，每个神经元代表着一种输出函数,神经元之间的连接信息相当于神经网络的记忆。图1.1为神经元的结构示意图。由图可以看出单个神经元主要是由输入向量（由a1,a2…an等输入分量共同组成的）、权向量（由w1,w2…wn等各个神经元突触的权值共同组成的）、偏置b、传递函数f、神经元输出t组成的。

图1.1神经元结构示意图

从人工神经网络的工作原理来看，人工神经网络具有自我训练的学习能力、记忆存储能力以及自主寻找最优解决方案的能力。从这些特性来看，将神经网络运用于机器翻译技术中具有可行性和优化性。

1.2机器翻译

机器翻译就是一种自动翻译的过程，不同的自然语言通过计算机技术实现意思不变的相互转换。在当今经济信息全球化的时代机器翻译占据着尤为重要的主导低位。随着计算机技术的发展，出现了两大类机器翻译系统。一类是以语料库作为知识源的机器翻译系统，另一类是以词汇和语法规则作为知识源的基于规则的机器翻译系统

1.3基于神经网络的机器翻译

基于神经网络的机器翻译（（Neural Machine Translation,简称 NMT）是将人工神经网络与机译系统相结合的机器翻译方式。它与以往的统计机器翻译方法相比，基于神经网络的机器翻译主要工作如下：首先,准备一个神经网络,该网络能够实现一个序列映射到另一个序列的工作,输出的序列在翻译方面可以有很好的效果。从工作方式上来看，基于神经网络的机器翻译本质上是一种实现从编码到解码这一过程的系统。它将源语言编码，再提取有用信息，最后在对信息解码转化后翻译成另一种语言。

2.基于神经网络的机器翻译模型

2.1循环神经网络模型

循环神经网络模型（RNNs）中的神经网络会主动记忆输出层前面的各层信息，同时将这些信息累积用于输出层的输出计算。换句话说，每一层的信息都是互相连接的。在以往的神经网络模型中，输入层、隐层及输出层依次连接。然而层上的每个节点之间没有丝毫联系。因为这样的结构，在信息处理时容易出现很多无法解决的问题。因此，循环神经网络模型相较于传统的神经网络模型，对于信息的处理更加的准确有效。

长短期记忆网络模型（LSTM）是一种循环神经网络模型（RNNs）的扩展和改进模型。从本质上看它是和循环神经网络模型一样的，都是由多个同一模型链式组成。不同之处在于，长短期记忆网络模型使用了不同的函数来处理隐藏层的节点，实现了数据从一个模块到另一个模块的传输。

2.2双向循环神经网络模型（RNNs）

双向循环神经网络（双向RNNs）是另一种提高神经网络模型的循环。它与循环神经网络模型的不同之处在于：神经网络模型的每一层输出不仅仅与前面的输入信息有关，并且还与后面的输出层有关。如图2.1所示的双向循环神经原理图，真正的双向循环神经网络结构相对简单,其本质上是由两个简单的循环神经网络（RNNs）组成，两个循环神经网络的信息处理方向彼此不同，同时这两个循环神经网络之间没有任何信息关联。这样的信息处理方式在机器翻译过程中，能够使待翻译的自然语言可以联系上下文后再翻译，从而提高信息处理的准确性。

图2.1 双向循环神经模型工作原理图

2.3 seq2seq神经网络模型

seq2seq神经网络模型又被称为序列到序列模型，它本质上是将一个序列转换成另一个序列的操作框架。该运算框架主要是通过使用循环神经网络模型（ RNNs）、长期和短期记忆网络（LSTM）、双向循环神经网络模型（双向RNNs）处理数据和信息,实现了从一种序列到另一种序列的转换。

如图2.2所示，seq2seq神经网络模型从工作过程上看，它是一种从编码器到译码器转化的运算框架，它善于从全局序列的角度考虑，对于一种序列分析，能够联系上下文得出另一种相应的表述序列，十分适用于机器翻译。由此可以看出，seq2seq 神经网络模型能够很好地将人工神经网络与机器翻译技术相融合。

图2.2 seq2seq模型的工作原理图

3.基于Seq2Seq模型机器翻译的建立方法

3.1神经网络的seq2seq学习

机器翻译的Seq2Seq模型作为一种神经网络模型，它主要由自然语言编码将有用的信息抽取出来后，再将提取的信息进行译码，将信息转换成另一种意思完全相同的自然语言。但是，在对自然语言翻译的过程中，常常会出现输入的语言序列与待输出的语言序列长度不等的情况。这也是传统的基于深度学习的序列对序列训练过程中出现的困难的情况，由于基于深度学习的序列训练的输入输出长度是相等的。不过，循环神经网络模型以及相关改进扩展模型的出现很好地解决了这种问题。在应用过程中，Seq2Seq神经网络模型中的编码器和译码器通常使用长短期记忆网络（LSTM）模型作为运算框架。

为了使输入序列与输出序列能够一一对应，需要对序列进行运算，这个过程就是神经网络的seq2seq学习。

图3.1 神经网络的seq2seq学习原理图

假设输入一段语句ABC以及该语句的终结符号＜ EOS＞，最终输出的结果为XYZ及终结符号＜ EOS＞。在编码器中，在每一节时间步中只输入一个单词一直到输入终结符＜ EOS＞才结束，然后由编码器的最后一个隐藏层的输出作为解码器的输入。因此，在解码器中，最初的输入为编码器的最后一个隐藏层，目标序列词X作为输出，接着把该隐藏层以及它的输出目标序列词X作为下一时间步的输入，用来生成第二个目标序列词Y，就这样依次进行，直至＜ EOS＞。

假设给定一个输入序列（x1,⋯,xT）（x1,⋯,xT），经过下面的方程迭代，最终生成输出序列（y1,⋯,yT′）（y1,⋯,yT′）：

ht=f（Whxxt+Whhht−1）yt=Wyhht（1）

其中，WhxWhx为输入到隐藏层的权重，WhhWhh为隐藏层到隐藏层的权重，ht为隐藏结点，WyhWyh为隐藏层到输出的权重。

在这一模型结构中，其目标是估计条件概率：

p（y1,⋯,yT′|x1,⋯,xT）

首先通过编码器的最终隐藏层，获得（x1,⋯,xT）的固定维度的向量表示vv，接着通过译码器进行计算（y1,⋯,yT′）的概率，将这里初始的隐藏层设成为向量vv：

p（y1,⋯,yT′|x1,⋯,xT）=ΠT′t=1p（yt|v,y1,⋯,yt−1）

在这个方程中，每个p（yt|v,y1,⋯,yt−1）为一个softmax函数。

3.2 Seq2Seq模型的构建

最基本的序列对序列模型由三部分组成：编码器、解码器和连接它们的中间状态向量。编码器通过训练输入序列将输入序列编码为固定大小的状态向量S，然后将S发送给解码器。然后解码器将状态向量S传递给解码器。学习和培训输出，最终输出相应的输出序列。

模型构建按照工作原理来分，主要包括编码器层与解码器层。在解码器层，我们首先需要定义的输入序列张量,同时要对带翻译的字母进行嵌入，再输入到循环神经网络层进行运算分析。

在解码器端，我们大致需要完成以下几方面的内容：

1. 对目标序列进行处理

首先，我们需要对目标序列进行预处理。当我们输入一个从目标端作为循环神经网络的序列到解码器端时，序列中的最后一个字实际上是无用的。

由图4.1可知，我们的目标序列实际是[＜go＞, W, X, Y, Z, ＜eos＞]。序列中＜go＞，W，X，Y，Z是每个时间序列上输入给循环神经网络的内容，＜eos＞并没有作为输入传递给循环神经网络。所以，必须将目标端中的最后一个字符去掉，并且还必须在前面添加＜go＞标识，用来提醒循环神经网络模型这代表一个语句的开始。

2. 构造解码器

其主要步骤是：

（1）对于目标序列进行嵌入；

（2）构造解码层；

（3）构造输出层，输出层会得出每个时间序列的循环神经网络输出结果；

（4）训练解码器；

（5）预测解码器。

4.结论

在当今的信息化时代里机器翻译具有广阔的前景和十分重要的意义。本文针对传统机器翻译模型在处理大规模的自然语言时常存遇到的信息错误、信息丢失、信息不完全等现象从而导致信息的错翻错传的现象，提出了一种基于神经网络的机器翻译方法。建立神经网络的机器翻译模型，将人工神经网络这样的人工智能技术融入机器翻译技术。介绍多种神经网络模型的工作原理，对不同神经网络机器翻译模型的优缺点进行分析比较，提出了实现机器翻译的Seq2Seq模型的方法，从而大大提高了机器翻译的准确度和工作效率。