基于本体和文本特征的Web信息抽取技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：nxjmbxy

【摘要】

：

随着因特网的快速发展，海量的Web数据资源已经成为人们获取知识与信息的重要来源，如何从庞杂的数据中获取有用的信息是现阶段共同面临的问题，Web信息抽取就是针对这一问题提出的

【作者】

：

张斌

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2011年期

【关键词】

：

Web信息抽取语义文本特征本体 XML

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着因特网的快速发展，海量的Web数据资源已经成为人们获取知识与信息的重要来源，如何从庞杂的数据中获取有用的信息是现阶段共同面临的问题，Web信息抽取就是针对这一问题提出的。尽管目前在Web信息抽取技术领域进行了大量的研究工作，但是现有的技术往往缺乏对Web数据本身的描述，包含的语义信息不够清晰，并且在处理与正文无关的噪音内容方面没有提出很好的解决方案，难以适应当前丰富多彩、形态结构各异的Web页面。针对上述问题，本文在研究本体技术和Web信息抽取技术总体解决方案的基础上，通过对传统Web信息抽取方法的基本原理、抽取技术、设计思想和发展现状等方面的研究分析，设计了基于文本特征的噪音处理方法以及由本体驱动、根据页面文档结构和特征匹配来完成信息定位和信息抽取的模型。该系统首先利用网络爬虫根据给定URL地址的页内链接爬取相关网页，并对所获取的页面进行文档清洗、编码转换和页面解析，运用面向文本特征的噪音处理方法，将不规范的HTML文档转换成基本无噪音的XML-DOM树。然后利用基于语义的本体构建方法，建立相关本体，为XML文档添加语义信息，同时应用XPath技术来定位信息节点。最后，运用XSLT技术完成一个源XML文档到一个新XML文档的转换。实验结果表明，本文设计的Web信息抽取方法能够很好的解决页面噪音问题，同时召回率和准确率也能够达到较高的百分比。

其他文献

非2π周期三角逼近及奇异求积研究

通过变量变换的方法将一组正交多项式转化成一组非2π周期三角多项式(以下简称为非周期三角多项式)，用非周期三角多项式作为逼近工具，对带Legendre权和Chebyshev权的正常积分和

学位

三角多项式多项式逼近奇异求积解析函数数值计算

重视新闻报道的党委书记

在阿克苏大光棉毛纺织厂今年5月底开办的通讯报道学习班上,56名学员中有一位引人注目的学员——厂党委书记刘中坤。今年43岁的刘中坤,是一位有大学文凭又富有实践经验的企业

期刊

新闻报道通讯报道新闻线索稿件质量工作计划大学文凭刘中棉毛工关合同制工人

基于遗传算法进行高维数据聚类的新算法

数据挖掘,是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。它是一种透过数理模式来分析海量信息,找出不同的数据划分来提供决策支持的方法。

学位

数据挖掘高维数据聚类分析遗传算法特征子空间

基于视频序列的人物跟踪与行为分析技术研究

视频中的人物跟踪与行为分析技术是以人为监控目标的监控系统智能化、自动化的基础技术。目前,此类技术在军事、竞技体育等领域已有广泛应用,而在经费支出较少的普通民用领域

学位

运动目标检测运动人物跟踪行为分析自动监控自动报警

基于依赖感的多租户应用构建方法研究

随着互联网的普及、软件应用技术和模式的快速发展，软件已呈网络化、平台化和服务化的发展趋势。其中，SaaS(Software as a Service)是一种新型的软件服务模式，凭借其按需租用、

学位

多租户技术依赖感知服务选择租户安置优化部署策略

特征模型网络划分的研究

现今有限元分析广泛应用于产品试验,其中网格划分即将整体结构离散化,是有限元分析前提。利用四面体进行网格划分均衡了网格划分的速度,可得到预期中的网格质量,可保证质量的

学位

变分四面体网格划分扩大自由集语义特征模型特征差异有限元分析

基于特征网络格参数化的图像适应处研究

随着智能手机(Smart Phone)，掌上电脑(PDA)，mp4＼mp5，上网本，平板电脑等小型个人终端的迅速发展，带了同一多媒体内容如何在多种终端下正确而恰当显示的问题。而数字图像和视频的获取

学位

数字图像图像处理网格参数化程序设计

有限元分析与虚拟手术仿真研究

医学图像处理与分析是在医学、物理学与计算机科学等学科基础上发展起来的一门学科，其包括图像分割、图像配准、三维可视化、网格处理、有限元分析与虚拟仿真手术等。随着现代

学位

有限元方法虚拟手术三维可视化网格划分图像分割图像配准医学软件系统

经典的背后

关注经典的背后,关注的是中国艺术创作者的人生,关注的是中国工艺行业的未来发展。多维的层面需要多维的视角,如果你曾经热切地赞美过那些精美的作品,请再近一步。经典的背后

期刊

黄卖九景泰蓝钱美华应天齐工艺美术行业艺术创作者一颗北京市珐琅厂青花王习三

基于虚拟网络计算的数据传输技术研究

视频会议系统作为网络多媒体综合服务平台,可以使世界各地的合作伙伴和同事之间实现远程的交流沟通与工作协同。而仅仅拥有视频和音频功能的视频会议已经不能满足如今多媒体

学位

虚拟网络计算数据传输远端帧缓冲器应用程序共享

基于本体和文本特征的Web信息抽取技术研究

与本文相关的学术论文