机器智能的快速发展已经给语音识别和图像识别能力带来了巨大的提升,但改进机器翻译仍然是一个极具挑战的目标。
9月28日谷歌宣布推出谷歌神经网络机器翻译系统(GNMT),采用最先进的神经网络机器翻译(NMT)技术,大幅提升机器翻译的水平,最高将翻译准确率提高到87%,MITTR报道称,“几乎与人类无异”。“这……极好地展示了神经网络机器翻译的实力,”YoshuaBengio在接受Science记者采访时表示。几年前,正是Bengio和他在加拿大蒙特利尔大学的深度学习团队开创了NMT。
在此前接受新智元采访时,Bengio谈到过去让他感到自豪的研究,“说一个比较新的例子,最近在机器翻译方面取得了一些进展,其中有很大部分是得益于我们研究小组的成果,神经机器翻译(NeuralMachineTranslation),这是大约两年前做出来的,现在全世界的实验室都在使用,是最先进的机器翻译技术,也是神经网络首次在机器翻译领域取得重大突破——之前,神经网络在语音识别、计算机视觉这些领域都取得了巨大的突破,但是机器翻译、自然语言处理还尚处于起步阶段。因此,这是我认为我们可以自豪的一项成果。”
正如前文所说,NMT技术已经被用于各种机器翻译系统,并接连取得极好的表现。谷歌的GNMT在此基础上又进一步,实现了商业化的部署。
在GoogleResearch官方博客,谷歌机器翻译团队的QuocV.Le、MikeSchuster也发表了文章,题目中也强调了“商业部署”。
在十年前推出时,谷歌翻译采用的是基于词组的机器翻译(PBMT),几年前,谷歌大脑团队开始使用循环神经网络(RNN),直接学习输入序列到输出序列之间的映射。基于词组的机器翻译(PBMT)是将句子拆分成字词后单独翻译,而神经网络机器翻译(NMT)则将输入视为一个整体进行翻译。这样做的好处是翻译时需要进行的调整少了很多。
当神经网络机器翻译技术刚刚出现时,就在中等规模的公共数据集上取得了与PBMT不相上下的成绩。自那时起,从事机器翻译研究的人提出了很多种方设法改善NMT,包括使用注意力将输入和输出对齐,将单词拆分成更小的单元或模仿外部对齐模型应对生僻字词。尽管如此,NMT的表现仍是不足以成为产品被大规模部署。
下面的动图展示了GNMT进行汉英翻译的过程。首先,网络将汉字(输入)编码成一串向量,每个向量代表了当前读到它那里的意思(即e3代表“知识就是”,e5代表“知识就是力量”)。整句话读完之后开始解码,每次生成一个作为输出的英语单词(解码器)。
要每一步生成一个翻译好的英语单词,解码器需要注意被编码中文向量的加权分布中,与生成英语单词关系最为密切的那个(上图中解码器d上面多条透明蓝线中颜色最深的那条),解码器哪个医院治白癜风较好北京请问治疗白癜风多少钱
转载请注明地址:http://www.ihgqp.com/zz/3887.html