基于领域本体的Web文档自动摘要关键技术研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:jyd965243
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet作为海量信息的载体越来越受到人们的青睐,人们在享受网络便捷的同时也被其大量涌现的无用Web页面信息所困扰,如何快速、准确地定位对用户有用的Web信息已成为当今学术界研究的一大热点。Web文档自动摘要技术聚焦于解决这一问题,其思想是利用计算机快速处理Web页面并自动总结出其文档的核心内容,使得用户可以根据自动概括出的核心内容来判断Web页面的价值,从而大大提高用户准确获取信息的速度。从现有研究看,利用Web文档自动摘要技术生成的摘要质量很难令人满意,原因在于两方面:其一,Web页面上使用的HTML标签不规范及大量噪音信息的存在影响了Web文档摘要抽取的准确率;其二,现有的自动摘要技术仅基于统计方法,忽视了对文档内容和主题的分析,导致生成的摘要质量不高。针对这些不足,本文首先提出了一种以文本块为单位的、自底向上的Web文档抽取算法(BWTE算法),从而有效地提高Web文档抽取的准确率;其次,本文提出基于领域本体的文档自动摘要算法(OntoSVD算法),将语义分析引入到基于潜语义分析模型的自动摘要算法中,进而提高生成的自动摘要质量。基于BWTE和OntoSVD算法,作者实现了原型系统MIA,验证了这两个算法的有效性。本文的主要研究成果可以归纳为:1)在现有的Web文档抽取方法基础上,提出了一种以文本块为单位的自底向上抽取算法—BWTE(Block-base Web Text Extraction)算法,先后使用过滤和抽取的方法对Web页面进行处理,从而得到Web文档,提高了Web文档抽取的准确率。2)提出了基于领域本体的自动摘要算法—OntoSVD算法,将语义分析引入到基于潜语义分析模型的自动摘要算法中,对文档进行内容和主题分析,在传统的统计方法中加入了语义信息,提高了摘要的质量。3)结合新的Web文档抽取算法和文档自动摘要算法给出了MIA系统关键组件的设计,并实现了一个原型系统以验证算法的有效性。
其他文献
几十年来,计算机技术获得飞速的发展,并在很多领域得到广泛的应用。与此同时,数据安全面临着更大的挑战,如数据泄露和人为破坏数据。根据美国计算机安全研究所的计算机犯罪和
目前,团体测试已广泛应用到驾驶员理论考试、资格考试、会议投票系统等领域,而随着计算机及网络技术的迅猛发展,考试方式也发生了巨大的变化。使用计算机化的考试系统可大大缩短
经过国家多年的信息化建设,各种电子政务系统和协同办公系统已经在政府部门广泛应用,由于当前大量的电子政务系统多为B/S模式的Web应用程序,缺乏统一的管理和设计,造成应用系
微粒群算法(PSO)是继遗传算法后的又一个基于生物演化的随机优化算法,它操作简便,收敛速度快且稳定,使得它近年来已广泛应用于很多工程中,发挥了重要的作用。本文在基本微粒群的
目前,包括地球在内的行星探测,已成为世界各国的科技发展重点,如何使探测更便捷有效变得非常重要。然而,传统的探测方式需要大量的科学技术人员的技术支撑和价格昂贵的硬件配
在集成电子商务系统研究开发的背景下,本文以国际结算软件的研制为基础,探讨了系统开发的过程、方法和工具等问题。整个研制工作贯穿基于三层体系结构的软件开发过程,运用设
近年来,描述逻辑由于其强大的表达能力和优良的计算性质,在知识工程领域受到广泛关注。描述逻辑的出现改变了以往知识表示和推理的方式,具有语义的知识表示方便了领域知识的创建
作为现代通信、介质存储、数据发行、多媒体计算机等技术的关键环节,图像压缩编码始终是信息处理技术研究中最为活跃的领域之一。由于数字图像具有数据量大的特点,出于对图像
机器人足球比赛已经成为当前人工智能和机器人领域的研究热点之一,其中,全自主足球机器人有着巨大的应用潜力,其应用领域包括自动驾驶、导游、未知区域的探索、核电站的维护
在信息社会中,信息是维持社会活动、经济活动以及生产活动的重要资源,并且已经成为政治、经济、社会、文化等一切领域的基础。不断探索网络多媒体信息还原的方法和技术有助于