论文部分内容阅读
近年来,计算机技术的发展和互联网的普及把我们带入了信息的海洋之中,信息的增长速度已经超出了我们的想象。目前,人们主要通过搜索引擎在互联网中搜索自己需要的信息,但搜索返回的结果包含了大量冗余信息,使得人们很难在短时间内从这些信息中提取出自己感兴趣的部分。多文档文摘正是为了解决这一问题而产生的一种新技术,它可以将多篇同一主题的文章进行筛选和汇总,从中提取出简洁、全面的信息,将人们从繁琐、冗余的信息中解脱出来。本文在现有的多文档自动摘要技术基础之上,对语义概念抽取和聚类算法等关键技术展开研究,实现了一个基于统计和语义分析的多文档自动摘要系统。本文的主要研究内容和特色如下:(1)采用概念统计方法代替传统的词频统计,建立概念向量空间模型进行多文档摘要,减少了传统VSM模型中标引词向量间“斜交”所带来的影响。(2)传统的方法一般通过词形或词共现等特征进行句子相似度的计算。本文对句子相似度计算方法进行了改进,通过分析句子中词语之间的内在联系进行计算,提高了计算的准确率。(3)借助WordNet语义资源进行语意消歧和概念树的构造,建立了一种树形结构描述文档集合,并提出一种主题概念抽取方法,从概念树中抽取主题概念对句子进行加权,显著地提高了多文档自动文摘的质量。(4)在深入研究了多文档主题划分技术的基础上,对基于密度聚类的OPTICS算法进行了改进和优化,并将其应用到多文档摘要中。改进后的方法能够更加准确的划分文档集合主题,使得抽取的结果更加全面。基于统计和语义分析的多文档自动摘要系统是对传统多文档摘要系统的改进,实验结果表明它比原有的多文档摘要系统更加有效,能够更加准确全面地提取信息。多文档自动文摘无论是作为独立的系统还是作为搜索引擎的一部分都将拥有广泛的应用前景,随着互联网技术的进步将具有更大的发展空间。