基于维基百科的多文档自动摘要系统研究

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:famzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展使得网络信息井喷式地增长,虽然搜索引擎技术的发展使人们可以方便地从网络上获取想要的内容,但随着网络信息的快速增多,人们花费在搜寻有用信息上的时间也越来越多了。在这种情况下,单纯地使用搜索引擎技术已经越来越难以满足人们准确捕捉信息的需求。面对这种困境,多文档自动摘要技术被提出来,多文档自动摘要是自然语言领域中的一个重要研究方向。多文档摘要可以将多篇同一主题的文档进行汇总,提供给人们简洁,全面的信息,将人们从繁琐、冗余的信息中解脱出来。本文以TAC2009的Update Summarization子任务为实验背景,设计并实现了一个研究基于维基百科的抽取式多文档自动摘要系统。系统首先对文档进行句子分割、词性标注等预处理,然后依据句子TF*IDF、句子位置、句子与主题相似度以及句子长度四个特征的组合对句子排序.然后基于维基百科这种外部资源来进行句子过滤,最后抽取句子生成摘要。本文使用ROUGE评测工具对使用维基百科前后的摘要进行对比实验,实验结果表明维基百科能较大程度上提高多文档摘要质量。
其他文献
现如今,为满足营销和消费者偏好分析的需要,商户往往会将交易数据,包括敏感信息PAN(持卡人的银行卡卡号)进行存储,这使商户系统易成为攻击者的目标。此外,虽然创新支付方式的
Folksonomy是一种基于Web2.0的新型知识分类方法。Folksonomy由用户、资源、标签三个重要元素组成。具有自由性、共享性和用户性等特点。在实际应用中Folksonomy系统常常受到
随着互联网技术的发展,Web服务已经在企业应用集成、工作流、电子商务等领域获得广泛的应用。Web服务的质量保障是影响其应用的关键问题,其中可靠性是一个重要的方面,要求系
互联网的影响已经深入到人们生活的每一个角落,随着电子邮件,电子商务等应用的出现,互联网安全的重要性也愈发凸显。现有互联网中的安全基于协议分层的网络体系,存在着安全协议功
现今信息网络中光纤网络承载着人类社会80%以上的电信业务,支撑着我们的信息社会并引领着网络世界的更新和变革。快速发展的WDM(波分复用)光网络中,网络设备的故障失效会导致多
随着传感器技术和网络技术的不断发展,无线传感器网络越来越多的应用到人们的日常生产和生活当中,煤矿安全监测系统就是一个典型的应用。相比于传统的有线监测,使用无线方式
近年来,我国高速铁路的发展突飞猛进。动车组运用检修是高速铁路安全运营的重要保障,其质量和效果是关乎动车组安全和高速发展的关键因素。动车组运用检修作业需要多部门、多
无线Mesh网已经成为了一种非常具有应用前景的新型无线组网技术,特别是多射频多信道无线Mesh网,由于网络中有多个信道可供分配,每个节点有多个射频,这样网络的健壮性、灵活性和性
随着因特网的高速发展、信息爆炸时代的延展,人们对于信息的获取又有了新的需求。人们不再仅仅满足于由新闻媒体、信息门户等网络信息实体所展示的文章或多媒体信息,而是更加
海关通关管理的定义是指海关通关管理部门对运输工具和进出口货物行使通关管理和业务运行的职能,负责监控海关作业单证的流转,指导、检查和监督关区审单作业。在通关环节中,