论文部分内容阅读
多文档自动摘要是数据挖掘、信息检索等领域非常亟需解决的问题之一。目前,学术界对于多文档自动摘要的研究已经取得了显著的成果,提出了很多多文档自动摘要的算法。但是由于应用的领域的不同,处理的数据的不同以及多文档自动摘要任务本身的复杂性,多文档自动摘要任务还存在着许多问题,需要研究和解决。本文面向科技领域,首先基于本文提出的改进的基于凝聚的层次聚类算法进行多文档自动摘要,然后利用本文提出的改进的信息抽取算法对聚类结果进行了信息抽取,并依据结果自动生成综述报告。利用改进的基于凝聚的层次聚类的算法进行多文档自动摘要,将多文档摘要的任务转化为文档聚类的任务,传统的特征选取方法并不对词区别对待,本文对特征选取方法进行改进提出了基于实体词和专有名词的特征选取方法,针对不同的特征选取方法进行对比实验。由于基于传统聚类方法进行多文档摘要,通常采用余弦相似度,并没有对学术文献各部分区别对待,本文提出了基于多维度的相似度计算方法,对学术文献各部分分别计算相似度并线性加权,并且将相似度赋予不同的权值进行累加整合作为文献相似度,得到了更好的性能。在本文的聚类过程中,提出一种改进的基于凝聚的层次聚类方法,较之于传统的基于凝聚的层次聚类方法,此算法要求簇之间距离更紧密,对于科技领域达到了更好的效果。显然,研究人员不满足于了解学术文献的聚类划分,更希望知道学术文献的研究类别,研究方法等信息。基于这个需求,本文首先采用改进的基于统计的信息抽取方法对研究类别进行信息抽取,并针对学术文献各部分的重要程度不同,提出了改进的词频的权重计算方法,提高的信息抽取效果。然后,本文针对科技领域的特殊性,提出了基于规则与统计相结合的信息抽取方法,相比较传统的基于规则的信息抽取算法,本文将规则与浅层句法分析相结合,使信息的抽取性能得到提升。最后本文依据上述聚类以及信息抽取结果,并对研究的时间段,作者分布,研究方向,研究方法等进行统计,最后对研究方向做出预测,自动生成综述报告供研究人员阅读。