基于神经网络的复述抽取和重排序研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mooyee6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因为语言的多样性和计算机对语言的理解能力有限,目前的机器翻译性能与我们期待的仍有一定的差距。尤其在一些小语种上并没有大量的双语平行语料库,语料相对比较稀疏,机器翻译性能并不是很好。复述,作为解决稀疏问题的一种方法,通过引入复述来提升机器翻译的性能。其次,全局特征,往往对机器翻译的性能提升具有重要作用。非线性的神经网络模型具备更强的表达能力,而且,它通过引入隐含层,可以根据翻译的平均度量对输入层的特征进行进一步的抽象和解释,从而能够更好地利用特征来提高翻译的性能。因此,我们决定用神经网络模型来实现重排序中的判别函数,利用其全局特征、RNN语言模型特征和线性插值的方法提高翻译的性能。本课题的研讨内容有以下几个方面:(1)我们提出了一种短语划分的标准,首先对双语语料进行句法标注,将句法解析后的语料按树结构存储,抽取相应的包含名词短语和动词短语的子树作为短语划分。并且我们对不同粒度的名词短语动词短语的实验结果进行对比,针对出现的嵌套问题,对算法进行改进,解决嵌套问题,得到更精确的短语划分,准确率和召回率都可以达到80%以上。(2)我们根据词向量模型建立了短语向量模型,对短语划分后生成的短语进行短语向量表示,我们利用K-均值聚类来抽取复述,我们将抽取的复述结果应用到统计机器翻译系统中,通过修改短语翻译概率来解决训练语料库数据稀疏的问题,从实验结果中我们也可以看到,改善后的短语表可以提高机器翻译的性能,大概提高0.3BLEU值。(3)我们尝试引入了基于神经网络的统计机器翻译重排序模型。我们建立了基于一层神经网络重排序模型,给出了重排序模型的判别函数和随机共轭次梯度法的训练算法。在此基础上我们将RNN语言模型作为特征加入到我们的重排序模型中来,并使用线性插值的方法完善重排序模型,从实验结果上来看,神经网络的重排序模型可以提高机器翻译的性能。通过实验表明,使用短语向量抽取复述,利用抽取的复述来完善短语表以及引入基于神经网络的重排序模型都可以在一定程度上提高机器翻译的性能。
其他文献
随着云计算技术的迅猛发展,越来越多的用户将他们的数据外包给云服务器,以减轻其复杂的管理任务,为了确保存储在不可信云服务器中敏感信息的安全性,数据拥有者会先施行加密操
随着信息化社会的到来,多媒体技术及智能信息处理技术的迅速发展,各行业对图像的使用越来越广泛,图像信息资源的管理和检索显得日益重要。怎样有效地组织管理和检索这些大规
在嵌入式系统中集成TCP/IP协议,将嵌入式系统接入Internet(互联网),已经成为嵌入式技术发展的重要方向。但随着互联网规模的不断扩大,尤其是大量的嵌入式设备接入后,IPv4已逐
随着信息量爆炸性的增长,人们很难从大量的信息中迅速有效的提取出所需信息,出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面,对用户提供适当的支持和帮助
本文根据中文学术论文的特点,把中文学术论文抄袭检测系统分为基于数据库的关键词匹配数初检模块和内容详检模块两大模块。在第一模块中,利用论文作者自行提取的关键词作为初检
传统业务收入的下滑已经是摆在全球运营商面前不争的事实,伴随Web2.0的出现和发展,网络应用日益丰富,大众需求日益扩展,宽带等新兴互联网和数据多媒体业务必将成为新的利润增长点
学位
随着计算机网络特别是Internet的飞速发展,网络的规模不断扩大,网络复杂性不断增强。传统的网络管理协议如简单网络管理协议(SNMP)~[1]已经越来越不能满足网络管理的要求。出
三维心脏建模是医学图像分析领域中正在研究的热点课题。通过目前医学成像技术所获得的心脏序列图像来提取相关心脏结构参数,是判断心脏功能的重要依据。而心肌是非刚性的,在
研究表明,在驾驶员——汽车——道路3个环节中,驾驶员是可靠性最差的一个环节,80%以上的交通事故来自于驾驶员的错误。据统计,其中约有44%的交通事故与车辆行驶偏离正常车道有关,其