基于领域本体的Web信息抽取技术研究

来源 :北京化工大学 | 被引量 : 2次 | 上传用户:mengwb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息抽取技术是在计算机不断普及和互联网迅速发展的背景下产生的。面对网络中海量、半结构化的Web文本资源,Web信息抽取技术致力于从中提取特定的信息,并将其转化为含义明确的结构化数据,在一定程度上满足了人们对网络中数据资源进一步整合与共享的需要。近些年来,本体理论的发展为Web信息抽取的研究提供了新的途径。许多研究者对本体在Web抽取过程中的应用进行了深入探讨,力图通过使用本体来进一步改善Web信息抽取的效果。本文通过对信息抽取技术的特点及现有成果进行分析比较,借鉴本体领域中的相关理论,对基于领域本体的Web信息抽取技术进行了研究,着重作了以下几方面的具体工作:(1)分析了本体领域中的相关理论和应用,针对网页中事物描述信息的特点,提出了抽取指向型本体的概念及建立方法。将本体概念属性划分不同的类型,并为本体属性添加属性定位信息映射模型,使其能够识别和定位网页中的事物描述信息。(2)提出了基于领域本体的Web信息抽取系统(OBWIES)框架。采用模块化设计思路,通过分别构建各个具体的功能模块来完成系统的总体功能,并对系统架构的具体实现进行了讨论。(3)提出了系统所使用的核心方法,即以本体为指导的Web信息抽取方法(OGWIE)。在规则生成阶段通过引入抽取指向型本体的属性定位信息作为指导,结合网页结构树路径分析算法对包含语义信息的网页核心信息块进行定位,进而生成抽取规则;在信息抽取阶段参照路径式抽取规则执行数据抽取;最后将抽取结果转化为RDF本体知识进行存储,提高了抽取信息的可重用性。(4)以网络中针对图书和车辆的站点作为数据源,从中选取若干网页作为测试用例,对原型系统的抽取性能进行了对比实验。实验结果表明,本系统具有较高的准确率;与无规则抽取方法相比,本系统具有更高的抽取效率。
其他文献
随着大数据技术的快速发展,大数据在各领域的应用日益增多,规模不断扩大。大数据应用支持系统开发的需求日益强烈。为了满足这个需求,我们进行了基于Spark的大数据应用开发支
设施环境控制技术是设施农业的关键技术之一,如何制定合理的控制策略使其获取优质优产农产品已成为设施农业发展的重要方向。基于设施环境的机理模型,结合模型预测控制方法,以苏南地区大型连栋塑料温室为研究对象,提出了基于博弈论的单目标以及多目标设施环境控制方法,并对该方法进行了验证分析。论文主要研究内容包括以下几个方面:(1)模型预测控制方法以及分布式模型预测控制方法的理论知识研究,主要分析总结了分布式模型
机器学习的研究日新月异,近年来,越来越多的研究者青睐于利用数学的方法研究机器学习。本文就是这方面研究的一种尝试,利用范畴理论解决机器学习的表示问题。经过近三年的研
随着信息技术和计算机网络技术的飞速发展,图像、视频等数字多媒体产品越来越多被创作出来并在网络上传播。这也使得数字多媒体领域需要一种安全有效的版权保护技术。作为信息
视觉目标跟踪作为计算机视觉领域的一个重要研究课题,在国防、视觉导航、视频监控与通信、人机交互、医疗诊断、以及智能交通等多个领域有着广泛的应用。其研究目的是使计算机
随着Java EE应用系统规模的扩大,如何对系统资源消耗进行定量测量和定性分析,以便充分合理利用计算资源,是业界和学术界共同关注的重要课题。论文研究Java EE应用系统在不同粒度
在统计学,信号处理,经济学,金融数学等领域,时间序列得到广泛的研究和应用。近年本领域的热点问题是:统计特征时间序列和非线性时间序列的分歧。事实上我们在确定模型之前应该先观
差异进化算法是一种高效稳健的进化算法,是近年来进化计算研究领域的热点。针对差异进化算法对变量相关问题的求解困难,本文提出一种基于协方差学习机制的差异进化算法LYDE。
随着计算机网络的发展,网络的应用范围越来越广,随之而来的是网络中各种病毒、木马等爆发频率的加快,更加不幸的是各种网络攻击机制和网络攻击工具操作使用时越来越趋向于傻
目前,无线传感器网络安全问题是无线传感器网络的研究热点之一。入侵检测是无线传感器网络安全研究的一个重要领域。因此,研究无线传感器网络入侵检测技术具有非常重要的理论