论文部分内容阅读
随着网络信息技术的迅速发展,文本信息的数量和规模日益扩大。如何从如此海量的数据中快速获取到用户所需要的有效信息,同时对海量文本信息进行相应的概括,成为了目前急需解决的一大难题。文本摘要提取技术旨在从复杂纷繁的文本信息中,自动提取出文本信息的主要内容,进而解决了人工手动提取摘要难以适应如此海量数据的问题,降低了用户的信息解读工作量。目前,大数据时代的降临使文本摘要提取技术成为国内外学者进行学术研究的热点。本文的主要工作如下:(1)提出基于TF-IDF的关键词优化算法。使用传统词频统计TF-IDF算法提取出的关键词,并不能体现词语特征词的分布情况和重要程度,因此提出基于TF-IDF算法关键词优化算法。该算法在关键词提取预处理阶段,引入词语相似度概念,将一些具有高相似度的单词合并,然后运用标注段落的方法来提升分词完的数据质量。把TF-IDF算法中的文本逆频率转化成词语逆频率,提升了每个词语在语料库中的重要程度,最终实现关键词的提取。通过试验分析,此方法提取的文本关键词准确度更高,比传统的TF-IDF方法有更高的准确率和召回率。(2)提出基于TextRank的中文摘要提取改进算法为解决传统的TextRank算法默认所有句子初始重要程度相同,并不考虑句子本身就有重要程度差别的问题,提出了基于TextRank的中文摘要提取改进算法。该算法首先使用基于TF-IDF优化算法提取出关键词。并结合Doc2Vec模型与改进初始点选取的Kmeans聚类算法形成若干句子簇。考虑句子与关键词的关联程度、句子位置、句型特点等因素调整新的主题句权值;将权值用于TextRank算法中,以提升摘要的准确性。通过实验分析对比,此方法自动提取中文摘要的效果比仅考虑词频的TF-IDF方法、传统默认句子初始权值全部相同的TextRank算法和改进的DK-TextRank算法好。