中文多网页自动摘要的研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ash0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet在世界范围内的迅猛发展使得网络上聚集了越来越多的信息,而这些信息90%以上是以文本的形式表现的,这极大地推动了自然语言处理技术的发展。目前,自然语言的处理技术的研究成为许多研究者日益关注的领域,信息过滤、信息检索、自动文摘等技术成为人们研究的热点。同时也对自然语言处理技术提出了更高的要求:人们希望在杂乱无章的网络世界中快速、准确地获得自己想要的信息。本文重点研究了自动网页摘要技术,旨在通过摘要将大量的网页信息用简洁、准确的形式呈现给用户。文章将网页摘要分为两类,一类是同主题的多网页摘要,为了消除网页特有的冗余信息,提出了一种基于聚类思想的多网页摘要算法,实验表明该算法优于其他聚类算法,并且能够极大地消除网页冗余信息。第二类摘要针对某一突发事件的网上新闻报道,对于这一类网页,我们提出了基于事件模板和信息抽取的摘要方法,并且用信息融合技术合并抽取出的各种信息以达到准确和消除冗余的目的,准确率和召回率分别达到61.65%和79.60%。本文的主要研究成果如下:1.运用搜索引擎自动查找相关网页,而不需要手工构造语料库,提高了系统的实用性。2.为了消除网页冗余信息,将聚类算法运用到网页摘要中,从各个类别中
其他文献
计算机软件的普遍应用带给人们越来越多的便捷,并日益影响人们的日常生活,但计算机软件中存在大量的错误及漏洞,隐藏着巨大的风险。因此,无论是科研机构还是企业,都在努力研
多媒体数据的数字化为多媒体信息的存取、处理和传播提供了极大的便利,也极大的提高了信息表达的效率和准确性。但是一个明显的副作用是:多媒体数据的非法传播和拷贝非常容易,而
随着互联网和物联网技术的不断发展,3G和GPRS等无线传输技术与计算机技术相结合的应用层出不穷,基于以上的条件,设备远程监测技术也得到了非常大的发展。尤其是在安全生产越来越
随着Internet迅猛发展,出现了访问延迟过长、服务器过载等一系列问题。代理缓存技术能很好的解决上述问题,并得到了广泛应用。然而由于用户的增多和Web流量的迅速增加,单个代
软件复用是软件业界为解决日益严重的“软件危机”和日趋复杂的软件需求而提出的一种对策。软件复用技术随着面向对象技术和分布式对象技术的应用而得到迅猛的发展,在当前的
随着计算机网络技术地快速发展,网络上的信息量与日俱增,用户往往会感觉不知所措,在大量的学习资料中找到自己的需求也越来越难,这也引起许多学者和专家们对这个网络问题的研
近年来,嵌入式系统应用范围越来越广阔,功能不断增强,其需要处理的数据量也越来越大。如何有效地组织和管理这些数据成为嵌入式系统开发者必须要考虑的一个重要问题。于是,嵌
入侵检测技术是在传统的安全策略无法满足日益苛刻的安全需求的情形下产生的,它的出现给计算机安全领域的研究带来新的活力。在入侵检测技术中,对网络数据包有效载荷进行攻击
因特网技术和移动通信技术的不断发展和进步,使移动计算成为当前计算机科学领域一个十分活跃的研究课题。Ad hoc网络,作为一种特殊形式的移动计算机网络,可广泛应用于战场指挥、
水位测试系统是为了动态跟踪高精度测量河流模型中的水位变化而设计的实时测控系统,河流模型是为了研究河道再造河床过程、不同时期的洪水演进过程、江湖关系变化及防洪对策而