论文部分内容阅读
随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。文本相似度的计算方法可以极大地影响文本自动摘要评价方法的准确率,如果能够有效改进文本相似度计算方法,将会显著提高摘要系统的整体性能。针对现有文本相似度计算方法不能兼顾字符层面和语义层面相似度的弊端,本文结合文本编辑距离和句子向量提出了一种新的混合文本相似度计算方法,该方法全面地度量文本之间的相似程度,提高了文本相似度计算的准确率。针对现有的基于循环神经网络编码-解码结构的生成式文本摘要方法在处理长文本的过程中,由于梯度消失的问题导致准确率低,无法达到令用户满意的性能效果的问题,本文提出一种新的面向长文本的两阶段的自动摘要方法,该方法将摘要过程分成关键句抽取和摘要生成两个阶段。关键句抽取阶段应用混合文本相似度计算方法改进了基于图模型结构的Text Rank算法,提高了文本抽取的准确性。摘要生成阶段利用上一阶段得到的关键句,在循环神经网络编码-解码结构的基础之上设计添加了注意力机制和指针机制,从而构建了一个摘要自动生成模型。评测方法的发展和文本自动摘要技术的进步是相辅相成的,高质量的自动评测方法是文本自动摘要技术有着更长远发展的基础。本文深入分析现有的文本自动摘要技术评价方法,发现外部评价方法和内部评价方法都存在没有考虑语义相似度的问题,为此,本文提出了一种新的基于混合文本相似度的评价方法,弥补了对语义相似度度量的不足。鉴于制约生成式文本摘要技术发展的最大瓶颈就是缺少高质量的大规模数据集,本文通过自主构建的爬虫代码对2010~2017主流媒体网站的财经版块新闻获取了大量数据。通过进一步对数据的处理与分析构建了一个高质量的大规模财经领域中文长文本数据集。在该数据集上完成实验,验证了本文提出的两阶段自动摘要方法的有效性,将结果在ROUGE和HTS指标下和目前流行的几种自动摘要方法作对比,效果明显改进,相对于基准RNN方法,在HTS指标下分别提升了25.8%(word)和20.1%(char)。