基于语义的Web信息抽取技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:cynosure
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web作为一个全球化信息空间,蕴含着巨大的潜在价值,如何在庞杂的数据中准确地抽取出用户想要的信息成为一个非常重要的课题。尽管目前已对Web数据抽取技术进行了大量的研究工作,但是现有的技术缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确,难以适应各个网站的结构各异,形态多样的特点。这使得应用程序无法直接解析并利用Web上海量的信息,造成资源极大的浪费。针对上述问题,本文在结合知识密集型Web站点的数据特征的基础上,引入Suffix Tree技术,根据不同网站的格式特征,提取出有效的数据模式,并利用基于语义的本体建立方法,借助Protégé工具建立领域本体,完成信息抽取过程中语义信息的扩展,消除了同类信息源Web页面的异构性。本文在研究了本体技术和半结构化Web信息抽取技术总体解决方案的基础上,着重研究了知识密集型Web站点的信息数据抽取的实现技术。通过对传统信息抽取方法的基本原理、技术及发展现状等方面的分析研究,提出了由本体驱动,并根据文档结构和特征匹配来进行信息定位和信息抽取的模型,详细描述了该模型的设计思想和抽取流程。该系统首先获取指定的HTML格式的Web文档,根据基于栈结构与链式结构的HTML到XML文档转换算法,将Web页面转换为XML格式,从而解决了Web文档之间的异构问题;然后利用Suffix Tree技术从该XML文档中提取数据模式;同时利用基于语义的本体建立方法,为这些信息增加语义信息;并用本体描述语言OWL形式化地描述该领域本体,从中归纳抽取规则;最后将抽取出来的数据转换成具有语义的RDF数据模型。论文通过本体技术的应用实现了语义信息附加,利用Suffix Tree技术完成了Web页面结构的数据模式提取。其工作实现了知识密集型Web站点上的信息数据源的模式提取以及信息抽取模型,方便用户使用有价值的Web信息资源,同时也为充分利用Web上的海量数据提供了一个有效的工具。
其他文献
随着企业规模和应用业务量的快速增加,业务终端分散化是一种发展趋势,采用有效的方法管理和控制终端中应用程序运行状况和信息的使用十分关键,开展相关理论和技术的研究具有
运动目标检测与跟踪是计算机视觉中一个重要的研究方向,它融合了计算机图像处理、模式识别与人工智能等诸多相关领域的知识,并在军事视觉制导、机器人视觉导航、智能人机交互、
随着计算机技术的迅速发展,信息越来越呈现出海量化和多样化的特征。传统的信息检索技术只擅长处理结构化数据,为处理大规模文本等非结构化数据,一种新的信息检索技术——全
随着信息技术及多媒体技术的迅速发展,人们获得的诸如图像、视频等信息也越来越多。图像识别在最近几年已经被广泛研究与应用,而人脸识别在其中占有非常重要的地位,其在身份
生物特征识别技术因其稳定性、唯一性、便携性、安全性等优势使得人们相信不久的将来将逐步地取代传统的身份认证方式。掌纹作为一个重要的生物特征,在过去的十几年中已经吸
近年来,随着对等网络(Peer-to-Peer,P2P)规模、信息量和用户量的飞速增长,P2P技术成为人们研究与关注的焦点。在P2P网络中,节点既是客户机,享用其他节点提供的服务,同时又充当服务
航空发动机是飞机、飞艇等航空装置的动力提供设备,主轴轴承作为航空发动机的重要组成部分,长期在高温、高压、高转速等复杂条件下运行,对航空装置的飞行安全起着至关重要的
信息技术(Information Technology,IT)与业务的不断融合、体系架构的不断完善,迫切要求对IT业务及其实现支撑业务的IT资源进行适当的管理,使之符合企业业务运作的需要并保证
非平衡数据分类问题广泛存在于现实世界中,如医疗诊断、雷达图像监测、诈骗检测等。由于其固有的不均匀特性,即正负样本数目相差悬殊,导致了传统的分类算法的有效性降低。因
创建逼真的三维人脸模型一直以来都是计算机图形学领域一个极具有挑战性的课题。人脸建模和表情动画作为虚拟现实技术和计算机图形学的一个分支已有30多年的历史。同时随着多