基于神经网络的篇章一致性建模

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lk1892
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章一致性是指句子与句子之间要有一定的顺序。在逻辑上和句法上对于一个多句子文本都有着重要的意义。对于这样的文本来说,能否对其进行有效的篇章一致性建模是该类型文本的生成与处理的关键。如果不能够保持篇章一致性,即使篇章中的每个句子都是通顺的,整体的篇章文本也不具有可读性。篇章一致性建模在自然语言处理与自然语言生成中有着广泛的应用,但是现有的篇章一致性模型并不能很好的适用。究其原因,是因为现有的所有篇章一致性模型都以句子为最小处理单元,着重于判断句子间的篇章一致性信息,而忽略了句子内部的单词顺序对整体的篇章一致性的影响,导致无法的到令人满意的效果。为了能够更好地解决篇章一致性建模问题,本文首先提出了一个基于最大熵模型的篇章一致性建模方法。不同于以往方法采用的句法分析的其他特征抽取手段,我们的模型采用词汇化的特征来对篇章一致性进行建模,以证明在词汇级别进行篇章一致性建模的可行性。进一步优化模型采用了利用循环神经网络来改进基于最大熵的篇章一致性模型,得到了一个基于循环神经网络的句子级语言模型。在篇章一致性建模方面的性能得到了进一步的提升,并且通过循环神经网络我们很容易的获取实数向量特征。为了同时兼顾句子级和词汇级的篇章一致性,我们提出了基于层次循环神经网络的篇章语言模型。基于层次循环神经网络的篇章语言模型将句子级的历史信息与词汇级的历史信息融合在一起,共同对句子序列进行预测。同时我们提出了层次循环神经网络的两步训练法,以高效的流水方式训练句子级语言模型和词汇级语言模型部分。在句子级别,我们利用句子排序任务对我们提出的模型进行检验,而在词汇级别,我们使用困惑度来评价我们提出的模型。最后我们还设计了一个中英机器翻译重排序系统来检验我们提出的基于层次循环神经网络的篇章语言模型在具体的自然语言处理应用中是否有用。实验结果表明,我们提出的基于层次循环神经网络的篇章语言模型有着超越现有最优系统的好性能。
其他文献
<正>会计的可比性原则作为对会计信息质量的要求之一,是再熟悉不过的一项会计原则了。但细究起来,却发现人们对会计信息的可比性的认识存在有不少偏差。这些偏差已经或正在对
汉语与日语语言属于同一语系,中国人和日本人在学习英语方面具有共性:虽投入大,但成效小;语言应用能力差。语言结构(中日对比英语)之间的巨大差异是造成我们学习英语困难的主
本文利用全国多个省份和地区的60多家企业860名员工的调研数据,对雇佣关系视角下冲突管理行为与员工创造力之间的影响机制进行了研究,并检验了心理授权的中介效应,得出以下研
我国铁路发展进入高速铁路时代,铁路系统党组织的领导作用和党的组织建设直面新的要求和考验。党的领导在基层实际工作中能否正确地有效地实现,与基层党支部的建设息息相关。
海外学者对改革开放以来中国共产党的执政问题从不同角度进行了研究,形成了一些有价值的观点,初步揭示了其中的一些规律,对此我们要高度重视,全面分析,积极借鉴。特别是要看
中国是世界上最早酿造酒的国家之一,酒在人们生活中产生了重要的作用。但是,由于酒具有两面性,过度饮酒害人害己,从大禹的"绝旨酒"开始,历代统治者制定了不同的禁酒政策。秦
为了研究太湖蓝藻爆发的发生规律和演变趋势,根据2008~2013年太湖蓝藻MODIS遥感监测成果,分析了太湖蓝藻爆发与同期气象、水质和人类活动等相关因素之间的关系。分析结果表明
提出了一种改进的文本表示模型提取文本特征词向量方法。首先构建基于词典索引和所对应的词性索引的double word-embedding列表的word-embedding词向量,其次,利用在此基础上B
目的发掘文化资源中的灾后心理干预方法,验证具有中国文化特征书法治疗的有效性。方法采用香港大学高尚仁教授创立的书法治疗方法对德阳地区2所小学的80名四、五年级有明显创
高校班集体作为和谐校园的重要组成部分,在和谐社会建设中发挥着重要作用。但目前高校班集体还存在班级概念淡化,学生归属感、责任感降低,向心力和凝聚力不强等问题,需要从班