基于本体和文本特征的Web信息抽取技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:nxjmbxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源,如何从庞杂的数据中获取有用的信息是现阶段共同面临的问题,Web信息抽取就是针对这一问题提出的。尽管目前在Web信息抽取技术领域进行了大量的研究工作,但是现有的技术往往缺乏对Web数据本身的描述,包含的语义信息不够清晰,并且在处理与正文无关的噪音内容方面没有提出很好的解决方案,难以适应当前丰富多彩、形态结构各异的Web页面。针对上述问题,本文在研究本体技术和Web信息抽取技术总体解决方案的基础上,通过对传统Web信息抽取方法的基本原理、抽取技术、设计思想和发展现状等方面的研究分析,设计了基于文本特征的噪音处理方法以及由本体驱动、根据页面文档结构和特征匹配来完成信息定位和信息抽取的模型。该系统首先利用网络爬虫根据给定URL地址的页内链接爬取相关网页,并对所获取的页面进行文档清洗、编码转换和页面解析,运用面向文本特征的噪音处理方法,将不规范的HTML文档转换成基本无噪音的XML-DOM树。然后利用基于语义的本体构建方法,建立相关本体,为XML文档添加语义信息,同时应用XPath技术来定位信息节点。最后,运用XSLT技术完成一个源XML文档到一个新XML文档的转换。实验结果表明,本文设计的Web信息抽取方法能够很好的解决页面噪音问题,同时召回率和准确率也能够达到较高的百分比。
其他文献
通过变量变换的方法将一组正交多项式转化成一组非2π周期三角多项式(以下简称为非周期三角多项式),用非周期三角多项式作为逼近工具,对带Legendre权和Chebyshev权的正常积分和
在阿克苏大光棉毛纺织厂今年5月底开办的通讯报道学习班上,56名学员中有一位引人注目的学员——厂党委书记刘中坤。今年43岁的刘中坤,是一位有大学文凭又富有实践经验的企业
数据挖掘,是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。它是一种透过数理模式来分析海量信息,找出不同的数据划分来提供决策支持的方法。
视频中的人物跟踪与行为分析技术是以人为监控目标的监控系统智能化、自动化的基础技术。目前,此类技术在军事、竞技体育等领域已有广泛应用,而在经费支出较少的普通民用领域
随着互联网的普及、软件应用技术和模式的快速发展,软件已呈网络化、平台化和服务化的发展趋势。其中,SaaS(Software as a Service)是一种新型的软件服务模式,凭借其按需租用、
现今有限元分析广泛应用于产品试验,其中网格划分即将整体结构离散化,是有限元分析前提。利用四面体进行网格划分均衡了网格划分的速度,可得到预期中的网格质量,可保证质量的
随着智能手机(Smart Phone),掌上电脑(PDA),mp4\mp5,上网本,平板电脑等小型个人终端的迅速发展,带了同一多媒体内容如何在多种终端下正确而恰当显示的问题。而数字图像和视频的获取
医学图像处理与分析是在医学、物理学与计算机科学等学科基础上发展起来的一门学科,其包括图像分割、图像配准、三维可视化、网格处理、有限元分析与虚拟仿真手术等。随着现代
关注经典的背后,关注的是中国艺术创作者的人生,关注的是中国工艺行业的未来发展。多维的层面需要多维的视角,如果你曾经热切地赞美过那些精美的作品,请再近一步。经典的背后
视频会议系统作为网络多媒体综合服务平台,可以使世界各地的合作伙伴和同事之间实现远程的交流沟通与工作协同。而仅仅拥有视频和音频功能的视频会议已经不能满足如今多媒体