论文部分内容阅读
篇章一致性是指句子与句子之间要有一定的顺序。在逻辑上和句法上对于一个多句子文本都有着重要的意义。对于这样的文本来说,能否对其进行有效的篇章一致性建模是该类型文本的生成与处理的关键。如果不能够保持篇章一致性,即使篇章中的每个句子都是通顺的,整体的篇章文本也不具有可读性。篇章一致性建模在自然语言处理与自然语言生成中有着广泛的应用,但是现有的篇章一致性模型并不能很好的适用。究其原因,是因为现有的所有篇章一致性模型都以句子为最小处理单元,着重于判断句子间的篇章一致性信息,而忽略了句子内部的单词顺序对整体的篇章一致性的影响,导致无法的到令人满意的效果。为了能够更好地解决篇章一致性建模问题,本文首先提出了一个基于最大熵模型的篇章一致性建模方法。不同于以往方法采用的句法分析的其他特征抽取手段,我们的模型采用词汇化的特征来对篇章一致性进行建模,以证明在词汇级别进行篇章一致性建模的可行性。进一步优化模型采用了利用循环神经网络来改进基于最大熵的篇章一致性模型,得到了一个基于循环神经网络的句子级语言模型。在篇章一致性建模方面的性能得到了进一步的提升,并且通过循环神经网络我们很容易的获取实数向量特征。为了同时兼顾句子级和词汇级的篇章一致性,我们提出了基于层次循环神经网络的篇章语言模型。基于层次循环神经网络的篇章语言模型将句子级的历史信息与词汇级的历史信息融合在一起,共同对句子序列进行预测。同时我们提出了层次循环神经网络的两步训练法,以高效的流水方式训练句子级语言模型和词汇级语言模型部分。在句子级别,我们利用句子排序任务对我们提出的模型进行检验,而在词汇级别,我们使用困惑度来评价我们提出的模型。最后我们还设计了一个中英机器翻译重排序系统来检验我们提出的基于层次循环神经网络的篇章语言模型在具体的自然语言处理应用中是否有用。实验结果表明,我们提出的基于层次循环神经网络的篇章语言模型有着超越现有最优系统的好性能。