面向科技领域的多文档摘要与综述报告自动生成

来源 :东北大学 | 被引量 : 7次 | 上传用户:rlhRLH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多文档自动摘要是数据挖掘、信息检索等领域非常亟需解决的问题之一。目前,学术界对于多文档自动摘要的研究已经取得了显著的成果,提出了很多多文档自动摘要的算法。但是由于应用的领域的不同,处理的数据的不同以及多文档自动摘要任务本身的复杂性,多文档自动摘要任务还存在着许多问题,需要研究和解决。本文面向科技领域,首先基于本文提出的改进的基于凝聚的层次聚类算法进行多文档自动摘要,然后利用本文提出的改进的信息抽取算法对聚类结果进行了信息抽取,并依据结果自动生成综述报告。利用改进的基于凝聚的层次聚类的算法进行多文档自动摘要,将多文档摘要的任务转化为文档聚类的任务,传统的特征选取方法并不对词区别对待,本文对特征选取方法进行改进提出了基于实体词和专有名词的特征选取方法,针对不同的特征选取方法进行对比实验。由于基于传统聚类方法进行多文档摘要,通常采用余弦相似度,并没有对学术文献各部分区别对待,本文提出了基于多维度的相似度计算方法,对学术文献各部分分别计算相似度并线性加权,并且将相似度赋予不同的权值进行累加整合作为文献相似度,得到了更好的性能。在本文的聚类过程中,提出一种改进的基于凝聚的层次聚类方法,较之于传统的基于凝聚的层次聚类方法,此算法要求簇之间距离更紧密,对于科技领域达到了更好的效果。显然,研究人员不满足于了解学术文献的聚类划分,更希望知道学术文献的研究类别,研究方法等信息。基于这个需求,本文首先采用改进的基于统计的信息抽取方法对研究类别进行信息抽取,并针对学术文献各部分的重要程度不同,提出了改进的词频的权重计算方法,提高的信息抽取效果。然后,本文针对科技领域的特殊性,提出了基于规则与统计相结合的信息抽取方法,相比较传统的基于规则的信息抽取算法,本文将规则与浅层句法分析相结合,使信息的抽取性能得到提升。最后本文依据上述聚类以及信息抽取结果,并对研究的时间段,作者分布,研究方向,研究方法等进行统计,最后对研究方向做出预测,自动生成综述报告供研究人员阅读。
其他文献
在该文中,我们设计了三个有效算法,并且对于算法的正确性以及时间复杂度给出了严格的证明,从而充分保证了算法的准确高效.在第一章中,我们首先给出对于该文中所使用的基本术
很多大型分析公司评估指出,生产集群中服务器资源利用率在15%到20%是很常见的;微软研究进一步指出,服务器即便在空闲时也会消耗超过其能耗峰值66%的能耗。显然,资源利用率较低的
在网络安全领域中,入侵检测已成为重要的研究方向.入侵检测系统作为网络中的报警和监测装置,能在入侵发生前及时发出报警信息以及进行相关的反应措施,防止系统遭受进一步的破
仿真的三维人体模型常用于计算机辅助服装设计、模拟和动画制作等领域.这种人体模型和真人的体形十分相近以至完全相同,以便用体面的、非接触的方式精确地测量出人体的各种关
随着Internet的迅速发展和各种通信设施的不断完善,越来越多的敏感信息需要在互联网上传输。电子邮件以其方便、快捷等特点,作为互联网信息传输的主要工具而被广泛使用。因此,如
近年来为研究有限样本情况下的统计模式识别和更广泛的机器学习问题,发展了一种新的模式识别方法——支持向量机,它能够较好的解决小样本学习问题.支持向量机是一个典型的两
随着经济全球化和国际贸易竞争的日趋激化,迫使企业间形成动态联盟来提高自身的竞争力,在瞬息万变的信息社会才有可能立于不败之地.因此,近年来对敏捷供应链管理系统的研究成
随着Internet/Intranet技术的迅猛发展和基于HTTP协议的Web技术的广泛应用,传统的工作模式和生产方式得到了极大的改变。多层应用体系结构作为新一代Web计算模型,和传统的客户机
目前,随着计算机网络技术的不断发展,存储的需求正以前所未有的速度增长,存储“瓶颈”问题也日益突出。当前主流的存储技术受其静态结构的限制,只适合于特定的应用需要,而不
J2ME技术是一种新兴的技术和无线应用开发平台,国内许多手机厂商例如摩托罗拉、诺基亚等生产的许多手机都支持J2ME技术,它和传统的WAP技术相比有诸多的优点,在该平台上可以实