半结构化数据中领域本体的抽取与融合

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：yintaozhy1988

【摘要】

：

经过数十年的发展，当今互联网不但汇聚了海量信息，而且其流通数据量仍以指数级速度激增。由于计算机无法理解Web上数据的具体内涵，面对海量内容只有通过人工筛选完成查询，难以及

【作者】

：

王劭博

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2012年期

【关键词】

：

半结构化数据领域本体 Web服务语义网术语抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

经过数十年的发展，当今互联网不但汇聚了海量信息，而且其流通数据量仍以指数级速度激增。由于计算机无法理解Web上数据的具体内涵，面对海量内容只有通过人工筛选完成查询，难以及时获取有用信息。作为Web3.0时代的标志，语义网在一定程度上解决了上述问题，这种从现有网络扩展而来的新一代互联网，必须依靠海量本体所给出的精确表征实现知识共享。　　作为一种能在知识层提供知识共享的概念体系，本体可以提高Web服务的表达与组合能力。当前学术界仍没有公认的本体构造标准，现阶段通常由领域专家根据自身经验及相关知识对信息进行提取、归纳，最终以手工方式构建本体，这种本体构建模式不但费时费力，保持对即有本体的更新必将成为一项耗费巨大的工程。在上述背景下，如何从已有的数据库、网页、文档等信息源中自动或半自动地抽取领域本体，提高本体的构建效率已成为近年来语义网和语义Web服务研究的热点。　　本课题针对上述问题，在充分调研目前研究成果的基础上，将本体术语抽取、知识的层次化表征及分布式本体融合相结合，以期实现针对即有数据源的半自动化本体学习。相关具体内容包括：　　(1)提出了一种适用于半结构化数据的领域本体抽取方法。大量研究表明，尽管常见半结构化数据中的领域本体关键词多以隐式形态存在，但在其体系结构中大都有相应的具体标签进行标记。本论文中以XML文档中格式化标题的标签与HTML文档内列表项

标签为抽取标记，对DBLP数据集和研讨会征文网页中的领域关键词进行提取，组成本体术语词库。这种以某一主题为根节点抽取所得的术语关键词库将为后续的领域本体构建打下重要基础。　　(2)为确保领域本体精度、提高构建质量，对一些常见的、混淆在关键词中的无关词组进行总结，经归纳整理得到过滤术语词表。以该词表为主体，辅以日期、时间、数字及标点符号等无关项目，对已抽取出的本体术语词库进行过滤。按知识源区分，以RDFS和OWL为描述语言对术语关键词库进行本体结构表征，得到基于相同主题，但分别源于DBLP数据集和研讨会征文页面的领域本体。这种分布式知识源的本体结构，将为构建更加全面而系统的领域本体提供保证。　　(3)针对已获取的基于分布式数据源所建立的同主题本体，以DBLP数据集为主体数据源，辅以研讨会征文页面进行本体融合，获取完备度较高的领域本体。在上述合并过程中，本论文对于偏序体系整合与优化方面的细节问题给予深入探讨，从拓扑结构出发，分析术语冗余重复和层次划分矛盾的四种情况，并给出相应本体映射理论和语义描述角度的解决方法。　　(4)综合上述研究结果，利用Prefuse工具构建了完备领域本体的可视化信息结构图。通过这种层次化隶属关系的图模型，将所构造出的领域本体架构体系与分支结构向用户和读者进行清晰、明确地展示，体现所构造本体的准确性。

其他文献

具有认知能力的移动机器人自主导航技术研究

移动机器人是一种能够在工作环境中通过传感器感知环境和自身状态实现自主运动并完成预定任务的智能系统。移动机器人技术在工业、农业、航天、军事以及日常生活等领域有广泛

学位

移动机器人自主导航技术认知能力操作条件反射混合协调学习分层学习结构路径规划

舰载近程防御系统反导试验中载舰安全分析

舰载近程防御系统反导试验中,试验组织者首先要保障试验舰的安全。本文建立了拦截试验模型,分析了靶弹威胁载舰的各事件,给出了综合威胁概率的计算方法,分析了试验参数对载舰

学位

军用舰艇近程防御导弹拦截反导试验

动力电池化成设备控制系统设计与开发

化成设备是生产充电电池的关键,其控制系统对设备的功能、精度和效率都至关重要。为了顺应全球节能环保的大趋势,减少电网谐波污染,提高功率因数并将电池在化成过程中释放的

学位

PWM整流器MATLAB仿真化成设备动力电池控制系统

B/S结构的云南省土壤重金属空间插值分析系统

随着近些年来社会的发展与进步,环境污染越来越严重,特别是土壤污染问题最为突出。土壤作为人类赖以生存的基本要素之一,现在已受到各种污染物的污染,而在这些污染物中,又以

学位

ArcGIS Serverl0ArcGIS Silverlight土壤重金属GIS系统空间插值

基于波控制器遥操作系统设计与研究

时延双边遥操作系统是一种能够在操作者的操纵下，完成难以接近或具有危险性任务的远距离操作的系统。由于通信环节时延的影响，严重破坏了系统稳定性。目前常用的解决方法是波变

学位

波控制器双边遥操作系统跟踪性能抗干扰能力

基于数字图像技术的火焰检测系统的开发

管式加热炉广泛应用于石油化工行业,其炉膛内的气体和炉管壁面温度分布水平是加热炉运行情况的重要特征。目前的测温设备热电偶只能获得个别点温度并有热惯性,本文开发的基于

学位

图像处理燃烧诊断数字图像技术火焰检测系统

水下机器人自主定位研究

本文以一种水下仿生机器鱼为研究平台,基于蒙特卡洛定位原理,设计并实现了一种水下自主定位算法。该机器人主要配有两种传感器：前视摄像头和陀螺仪,前者可以实时采集水下环境

学位

水下机器人机器人视觉自主定位图像处理

Nao仿人机器人步态规划及扰动平衡控制研究

双足机器人,是一种高度模拟人类双腿行走功能的高级智能机器人,相比较于轮式和履带式机器人,其对人类环境的适应性更高.具有代替人类在危险环境下进行重复、高强度、高精度工

学位

仿人机器人步态规划平衡控制线性倒立摆预观控制

脱机手写中文文本识别方法研究

随着个人电子计算机的迅速发展和各种数字化设备的出现,越来越多的纸质文档需要被转为电子文档,以便更好的查询、编辑、传输。尽管手写汉字识别的研究已经展开了近半个世纪,

学位

手写文本识别路径评价准则路径搜索算法语言模型自适应

锚杆锚固质量的电磁检测方法研究

在水利水电、公路、铁路与国防工程建设以及矿业采掘工程中，广泛采用锚杆锚固技术对边坡与各种地下工程（如隧道及洞室）进行加固。在锚杆锚固工程中，锚杆锚固质量的检测技术对保证

学位

锚杆锚固技术质量检测电磁检测方法数据采集信号处理模数转换

半结构化数据中领域本体的抽取与融合

与本文相关的学术论文