基于文摘融合的自动文摘算法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：shiyilang7879

【摘要】

：

自动文摘的目的是利用计算机自动地从原始文档或文档集中提取压缩信息（通常为句子集合或段落），同时该信息能够保留原文所涵盖的主要内容。面对互联网信息爆炸式的增长，如何快速有

【作者】

：

裴雨龙

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2013年期

【关键词】

：

自动文摘算法文摘融合监督学习信息提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动文摘的目的是利用计算机自动地从原始文档或文档集中提取压缩信息（通常为句子集合或段落），同时该信息能够保留原文所涵盖的主要内容。面对互联网信息爆炸式的增长，如何快速有效地获取有价值的信息成为摆在人们面前的一大难题，而自动文摘技术可以在一定程度上为信息过载提供一个有效的解决方案，提高人们获取信息的效率，因此自动文摘研究成为当前一个备受关注的热门研究课题。　　为了提高文摘性能，研究人员从不同的角度提出了不同的解决方案。本文从文摘融合的角度出发，将多个基本文摘模型通过学习策略进行融合，从而从文摘模型层面对文摘句选择进行了研究。具体来讲，本文的研究工作主要包括以下几个方面:　　1.本文提出了基于文摘融合的多文档自动文摘模型，该模型可以有效的融合多种基本文摘模型，在综合多种模型对句子的打分的基础上，计算句子最终的重要程度。不同于以往研究方法中面向特征层面的句子分析，本文提出的融合过程能够在模型层面对句子进行分析，从而有效的综合多个排序角度抽取文摘句。　　2.在文摘融合模型的基础上，本文从无监督学习和有监督学习两个角度对融合过程进行了比较研究。无监督的融合过程通过一个两阶段学习过程来确定每个单独文摘模型的权值;有监督的融合过程则通过引入的人工标记数据利用改进的Ranking SVM模型来计算分配给每个文摘模型的权值。　　3.本文实现了四个广泛应用的文摘模型，利用文摘融合框架融合了这四种基本的模型，以验证整体框架的有效性。此外，通过具体的实验对融合结果进行了分析。

其他文献

多视点视频编码的预测和后处理技术研究

多视点视频作为下一代多媒体应用的发展方向，通过提供多个视点的视频数据来满足用户自由选择观察角度的需求，具有立体感和交互操作的功能。多视点视频的数据量通常随着摄像机数

学位

视频编码标准多视点视频编码视点间预测深度图后处理

基于图编辑距离的自然景物识别

图像识别是模式识别领域的一个重要分支，鉴于其在医学、航空航天、工业等众多领域的广泛应用和重要作用，图像识别一直作为研究人员的研究热点。而其中的一个重要分支——自然景

学位

自然景物图编辑距离图核支撑向量机

Hadoop平台的作业调度算法研究与改进

随着互联网行业的蓬勃发展,人们对大数据技术的应用更加深入和广泛。作为主流的海量数据并行计算平台,Hadoop在性能方面正面临越发严格的考验。Hadoop平台的调度器控制着作业

学位

HadoopYARN作业调度

航空电子履历本管理系统的设计与实现

航空履历本记载了飞机和其所属的部附件的全寿命信息,包括从生产到总装、调试和后期使用的全部信息,每架飞机包含履历本总量超千本,总字数约百万。航空履历本包括机载设备履

学位

航空履历本SSHAndroid二维码数据同步

基于高斯混合模型聚类的Kinect深度数据分割

深度数据直接记录一个场景中的物体表面的三维几何信息，并且不受光照、阴影等其他因素的影响，有了这种精确的空间几何信息，易于建立事物模型，简化数据的处理方法，更利于与图像相关

学位

深度数据获取Kinect深度数据分割高斯混合模型随机抽样一致性算法

基于树模式查询的XQuery递归查询优化技术的研究

XML作为半结构化数据描述语言在互联网上被广泛地用于数据交换和数据共享。W3C为满足对XML数据的查询和处理需求，针对XML的数据特点提出了一种函数式语言XQuery，并将其作为XML

学位

XQuery树模式递归函数

基于众包模式的测试平台的设计与实现

软件测试是软件开发活动的重要环节，而测试数据是软件测试的关键，决定了软件测试的效率和质量。在白盒测试中，面对复杂程序，测试人员往往需要设计大量的测试数据，才能达到比较充分

学位

软件测试测试数据设计众包模式测试质量自动评估

面向云安全的虚拟域可信根的设计与实现

云计算是一种基于互联网的新型计算模式，通过虚拟化技术实现了平台资源利用率的最大化，整合计算资源、存储资源和网络资源构成大规模的资源池，使得各种应用系统能够按需获取计算

学位

虚拟可信根虚拟化安全可信计算

MapReduce型海量数据处理平台中数据放置技术研究

MapReduce型数据处理平台(以下简称“Map Reduce平台”)是海量数据处理领域的最新技术之一。数据本地化处理是MapReduce平台的新特征,即将海量数据基于计算节点的本地磁盘分

学位

MapReduceHDFS副本放置灰色预测CloudSim

网络流量预测模型及参数优化算法的研究

近些年来，在Internet网络的发展研究中，针对网络流量预测方面的研究越来越备受人们的关注和重视，而建立一个好的网络流量预测模型是人们进行网络性能分析、网络拥塞控制、网络设

学位

量子粒子群算法参数优化小波变换最小二乘支持向量机网络流量预测拥塞控制机制

基于文摘融合的自动文摘算法研究

与本文相关的学术论文