论文部分内容阅读
随着互联网的迅速发展,网络上信息量也随之大幅度增长。信息的大爆发导致信息的抽取和总结是非常重要的。因此目前研究从大数据量信息中提取出重要且不重复信息显得尤为重要。而摘要抽取技术作为一个重要的研究方向,能够从文章中提取出具有代表意义的文本,大大减小了信息数据的冗余度,有利于后续的各种文本分析工作。因此本文将基于机器学习的技术对文本摘要技术进行研究。本文设计了结合LDA和D2V的抽取式摘要抽取技术与基于文本语义和文本结构的生成式文本摘要技术SS-EDA,并利用算法完成相应的文本信息抽取系统的设计与实现。本文根据对文本摘要技术进行研究,由此分析相应的算法思路和设计本文的结构和主要工作:(1)本文首先阐述了文本摘要技术的研究意义与背景,主要分为文本摘要技术的国内外技术的研究现状与发展,说明了自然语言处理的预处理原理。对于抽取式文本摘要技术方向上,主要介绍了TextRank算法和文本聚类算法的算法原理以及相应的处理流程。介绍了利用本文将在文本摘要技术应用到的基础理论,以及相应的生成式文本摘要技术seq2seq,同时,也介绍了用于评估文本摘要质量的评估算法ROUGE。之后,这些算法也将与本文设计的算法进行实验与结果对比。(2)本文针对从原文本中抽取出句子代表篇章文本中心意思的原理,设计了结合LDA和D2V模型的摘要技术。其中LDA模型主要是用于做文本主题分类和篇章文本中的句子主题分类,D2V模型是将句子文本转换为句子语义向量,然后利用熵信息模型确定选择的句子构成相应的文本摘要。基于已公开的中文短文本数据集进行对比实验,从ROUGE算法评估文本摘要的评估数值可知,该算法在摘要抽取的质量比较好,可以根据不同文章的规模,确定出更加符合篇章文本的文本摘要规模,从而适用于不同规模的文章完成摘要抽取。而且相对于加入比较多的人工干扰因素,此算法更加“智能化”。该算法在整体上注意了使用数据集的领域问题,还考虑到具体每篇文章的具体情况,根据每篇文章所包含的主题含义确定摘要抽取规模和相应的句子。这种算法即注意了整体情况,又关注了不同的文章重点。但是,对于原篇章文本中没有能够代表中心意思的句子,则上述的算法在抽取效果上并不能够满足该论文的设计目的,因此将考虑生成式文本摘要技术来解决此问题。(3)本文针对生成式文本摘要技术,可以模拟人类的思考方式,将理解了原文本内容以后,总结和概括原文本中心意思的语句。本文设计了结合文本语义和文本结构的生成式文本摘要算法,此算法将基于中文语言上的特征考虑文本语义和文本结构作为网络输入,然后根据seq2seq模型的原理,加入注意力机制提高摘要生成质量。针对中文短文本数据集完成实验,可以发现,此算法在生成摘要效果在评估数值上更高。该算法不仅考虑了文本语义,还基于中文的特性上考虑了文本结构,文本结构方面主要考虑了五个因素:关键词个数、命名实体数量、句子长度、总结性关键词个数、与关键性句子的相似度。在算法中同时还设计加入了去重复信息的注意力机制。整个算法在中文数据集上表现良好。最后,本文完成了文本信息抽取系统的设计与实现,并加入了上述的文本摘要抽取算法,并进行了系统的各个功能展示。