基于词汇链和PageRank的多文档自动文摘研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:A88833238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的剧增,网络上的信息重复性很大。同一主题的相关文档通常是成千上万,它们的内容相似,但又有所不同,各有侧重点。人们迫切需要一种能够以简洁连贯的语言提供同一主题的多文档集合中全面而重要的信息的工具,多文档自动文摘技术顺应这种需求而产生。多文档自动文摘可以将多篇同一主题的文档进行汇总,提供给人们简洁、全面的信息,将人们从繁琐、冗余的信息中解脱出来。多文档自动文摘是信息时代发展到一定程度的必然需要,由于多文档自动文摘有良好的理论研究价值和应用前景,它已经成为文本处理领域的研究热点之一。本文首先对自动文摘的分类及发展历程进行简述,然后分别介绍单文档自动文摘及多文档自动文摘的相关技术。在此基础上,讨论了自动文摘的发展方向。其次详细介绍词汇链的概念、传统的构造算法。同时,在分析传统构造算法优缺点的基础上,提出了一种新的两阶段词汇链构造算法,实验表明,此算法提高了准确率并保证了较好的效率。然后介绍基于图的排序的方法及PageRank算法,讨论了如何将基于图的排序方法应用到文本处理中,进而介绍基于PageRank的句子抽取。最后,详细介绍基于词汇链及PageRank的多文档自动文摘系统。该系统采用词汇链表示多文档集合的子主题结构,对子主题排序,然后基于PageRank算法在各个子主题中选取句子生成文摘。这种方法能够保证文摘对多文档集合的各个重要子主题有较好的反映,而文摘本身冗余度较低。实验表明,这种综合的方法所生成的文摘质量较高。
其他文献
随着计算机总线技术的快速发展,计算机和消费类电子产品的普及,电子产品对信息数据传输速度、带宽、实时性和稳定性要求大幅度提升。IEEE1394总线作为一种数据传输的标准,具
Web服务作为一种新型分布式技术,具有异构、动态、复杂、多域的特点,易暴露现有安全系统的弱点和局限性,因此安全问题成为Web服务广泛应用前必须解决的问题。访问控制技术是
高速电力线通信(Power Line Communication,PLC)是指利用低压电力线作为传输介质,实现高速的数据传输及语音服务。近年来,随着Internet技术的飞速发展,利用电力线上网进行信息通信已经成为当前通信研究的一个热点领域。然而,低压电力网与千家万户相连,各种各样的电器设备会产生复杂的噪声,导致使用电力线作为通信信道时,其特性并不理想。目前主要的电力线去噪技术有多载波正交频分复用
自从David Patterson等人在1988年提出RAID(Redundant Arrays of Inexpensive Disks)概念以来,RAID技术不断发展,并被广泛应用于当前的大型存储系统。随着信息量的爆炸性增长
现代科学研究和应用领域的需要正朝着高性能、大数据量的方向发展,由于互联网中存在着数据共享和协同的问题,使很多信息系统信息分散、数据难于查找定位,并且相互孤立,难于连
随着Web技术的迅猛发展和应用,以及面向对象技术、组件技术的日益发展和成熟,Web应用需求日益增多,涉及的领域越来越广,Web应用系统的复杂性也变得越来越高,Web应用获得了极大的发
针对目前自动化方法在带钢表面缺陷检测时准确度不高的问题,本文探讨了基于计算机视觉的智能检测系统总体设计方案及软、硬件构成,重点设计了其中的缺陷初检、分割和识别步骤
网络测量作为一种收集网络运行数据和分析网络协议运行状态的重要手段之一,在帮助网络管理人员分析网络异常的原因方面发挥了重要的作用。由于基于数据包捕获的被动流量监测
伴随着计算机技术的飞速发展及芯片集成度的提高,内存越来越大且价格越来越低,使得在内存中存储较大的数据变得可行。同时内存数据库技术应运而生,并且在一些工业控制等实时
曲面重构是逆向工程研究的重要内容之一,散乱数据点的曲面重建一直以来都是函数逼近论的一个重要研究内容。本文从散乱数据曲面重构的实际需要出发,对散乱数据曲面重构的相关