基于文摘融合的自动文摘算法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:shiyilang7879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文摘的目的是利用计算机自动地从原始文档或文档集中提取压缩信息(通常为句子集合或段落),同时该信息能够保留原文所涵盖的主要内容。面对互联网信息爆炸式的增长,如何快速有效地获取有价值的信息成为摆在人们面前的一大难题,而自动文摘技术可以在一定程度上为信息过载提供一个有效的解决方案,提高人们获取信息的效率,因此自动文摘研究成为当前一个备受关注的热门研究课题。  为了提高文摘性能,研究人员从不同的角度提出了不同的解决方案。本文从文摘融合的角度出发,将多个基本文摘模型通过学习策略进行融合,从而从文摘模型层面对文摘句选择进行了研究。具体来讲,本文的研究工作主要包括以下几个方面:  1.本文提出了基于文摘融合的多文档自动文摘模型,该模型可以有效的融合多种基本文摘模型,在综合多种模型对句子的打分的基础上,计算句子最终的重要程度。不同于以往研究方法中面向特征层面的句子分析,本文提出的融合过程能够在模型层面对句子进行分析,从而有效的综合多个排序角度抽取文摘句。  2.在文摘融合模型的基础上,本文从无监督学习和有监督学习两个角度对融合过程进行了比较研究。无监督的融合过程通过一个两阶段学习过程来确定每个单独文摘模型的权值;有监督的融合过程则通过引入的人工标记数据利用改进的Ranking SVM模型来计算分配给每个文摘模型的权值。  3.本文实现了四个广泛应用的文摘模型,利用文摘融合框架融合了这四种基本的模型,以验证整体框架的有效性。此外,通过具体的实验对融合结果进行了分析。
其他文献
多视点视频作为下一代多媒体应用的发展方向,通过提供多个视点的视频数据来满足用户自由选择观察角度的需求,具有立体感和交互操作的功能。多视点视频的数据量通常随着摄像机数
图像识别是模式识别领域的一个重要分支,鉴于其在医学、航空航天、工业等众多领域的广泛应用和重要作用,图像识别一直作为研究人员的研究热点。而其中的一个重要分支——自然景
随着互联网行业的蓬勃发展,人们对大数据技术的应用更加深入和广泛。作为主流的海量数据并行计算平台,Hadoop在性能方面正面临越发严格的考验。Hadoop平台的调度器控制着作业
航空履历本记载了飞机和其所属的部附件的全寿命信息,包括从生产到总装、调试和后期使用的全部信息,每架飞机包含履历本总量超千本,总字数约百万。航空履历本包括机载设备履
深度数据直接记录一个场景中的物体表面的三维几何信息,并且不受光照、阴影等其他因素的影响,有了这种精确的空间几何信息,易于建立事物模型,简化数据的处理方法,更利于与图像相关
XML作为半结构化数据描述语言在互联网上被广泛地用于数据交换和数据共享。W3C为满足对XML数据的查询和处理需求,针对XML的数据特点提出了一种函数式语言XQuery,并将其作为XML
软件测试是软件开发活动的重要环节,而测试数据是软件测试的关键,决定了软件测试的效率和质量。在白盒测试中,面对复杂程序,测试人员往往需要设计大量的测试数据,才能达到比较充分
云计算是一种基于互联网的新型计算模式,通过虚拟化技术实现了平台资源利用率的最大化,整合计算资源、存储资源和网络资源构成大规模的资源池,使得各种应用系统能够按需获取计算
MapReduce型数据处理平台(以下简称“Map Reduce平台”)是海量数据处理领域的最新技术之一。数据本地化处理是MapReduce平台的新特征,即将海量数据基于计算节点的本地磁盘分
近些年来,在Internet网络的发展研究中,针对网络流量预测方面的研究越来越备受人们的关注和重视,而建立一个好的网络流量预测模型是人们进行网络性能分析、网络拥塞控制、网络设