半结构化数据中领域本体的抽取与融合

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:yintaozhy1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过数十年的发展,当今互联网不但汇聚了海量信息,而且其流通数据量仍以指数级速度激增。由于计算机无法理解Web上数据的具体内涵,面对海量内容只有通过人工筛选完成查询,难以及时获取有用信息。作为Web3.0时代的标志,语义网在一定程度上解决了上述问题,这种从现有网络扩展而来的新一代互联网,必须依靠海量本体所给出的精确表征实现知识共享。  作为一种能在知识层提供知识共享的概念体系,本体可以提高Web服务的表达与组合能力。当前学术界仍没有公认的本体构造标准,现阶段通常由领域专家根据自身经验及相关知识对信息进行提取、归纳,最终以手工方式构建本体,这种本体构建模式不但费时费力,保持对即有本体的更新必将成为一项耗费巨大的工程。在上述背景下,如何从已有的数据库、网页、文档等信息源中自动或半自动地抽取领域本体,提高本体的构建效率已成为近年来语义网和语义Web服务研究的热点。  本课题针对上述问题,在充分调研目前研究成果的基础上,将本体术语抽取、知识的层次化表征及分布式本体融合相结合,以期实现针对即有数据源的半自动化本体学习。相关具体内容包括:  (1)提出了一种适用于半结构化数据的领域本体抽取方法。大量研究表明,尽管常见半结构化数据中的领域本体关键词多以隐式形态存在,但在其体系结构中大都有相应的具体标签进行标记。本论文中以XML文档中格式化标题的标签与HTML文档内列表项
  • 标签为抽取标记,对DBLP数据集和研讨会征文网页中的领域关键词进行提取,组成本体术语词库。这种以某一主题为根节点抽取所得的术语关键词库将为后续的领域本体构建打下重要基础。  (2)为确保领域本体精度、提高构建质量,对一些常见的、混淆在关键词中的无关词组进行总结,经归纳整理得到过滤术语词表。以该词表为主体,辅以日期、时间、数字及标点符号等无关项目,对已抽取出的本体术语词库进行过滤。按知识源区分,以RDFS和OWL为描述语言对术语关键词库进行本体结构表征,得到基于相同主题,但分别源于DBLP数据集和研讨会征文页面的领域本体。这种分布式知识源的本体结构,将为构建更加全面而系统的领域本体提供保证。  (3)针对已获取的基于分布式数据源所建立的同主题本体,以DBLP数据集为主体数据源,辅以研讨会征文页面进行本体融合,获取完备度较高的领域本体。在上述合并过程中,本论文对于偏序体系整合与优化方面的细节问题给予深入探讨,从拓扑结构出发,分析术语冗余重复和层次划分矛盾的四种情况,并给出相应本体映射理论和语义描述角度的解决方法。  (4)综合上述研究结果,利用Prefuse工具构建了完备领域本体的可视化信息结构图。通过这种层次化隶属关系的图模型,将所构造出的领域本体架构体系与分支结构向用户和读者进行清晰、明确地展示,体现所构造本体的准确性。
  • 其他文献
    移动机器人是一种能够在工作环境中通过传感器感知环境和自身状态实现自主运动并完成预定任务的智能系统。移动机器人技术在工业、农业、航天、军事以及日常生活等领域有广泛
    舰载近程防御系统反导试验中,试验组织者首先要保障试验舰的安全。本文建立了拦截试验模型,分析了靶弹威胁载舰的各事件,给出了综合威胁概率的计算方法,分析了试验参数对载舰
    化成设备是生产充电电池的关键,其控制系统对设备的功能、精度和效率都至关重要。为了顺应全球节能环保的大趋势,减少电网谐波污染,提高功率因数并将电池在化成过程中释放的
    随着近些年来社会的发展与进步,环境污染越来越严重,特别是土壤污染问题最为突出。土壤作为人类赖以生存的基本要素之一,现在已受到各种污染物的污染,而在这些污染物中,又以
    时延双边遥操作系统是一种能够在操作者的操纵下,完成难以接近或具有危险性任务的远距离操作的系统。由于通信环节时延的影响,严重破坏了系统稳定性。目前常用的解决方法是波变
    管式加热炉广泛应用于石油化工行业,其炉膛内的气体和炉管壁面温度分布水平是加热炉运行情况的重要特征。目前的测温设备热电偶只能获得个别点温度并有热惯性,本文开发的基于
    本文以一种水下仿生机器鱼为研究平台,基于蒙特卡洛定位原理,设计并实现了一种水下自主定位算法。该机器人主要配有两种传感器:前视摄像头和陀螺仪,前者可以实时采集水下环境
    双足机器人,是一种高度模拟人类双腿行走功能的高级智能机器人,相比较于轮式和履带式机器人,其对人类环境的适应性更高.具有代替人类在危险环境下进行重复、高强度、高精度工
    随着个人电子计算机的迅速发展和各种数字化设备的出现,越来越多的纸质文档需要被转为电子文档,以便更好的查询、编辑、传输。尽管手写汉字识别的研究已经展开了近半个世纪,
    在水利水电、公路、铁路与国防工程建设以及矿业采掘工程中,广泛采用锚杆锚固技术对边坡与各种地下工程(如隧道及洞室)进行加固。在锚杆锚固工程中,锚杆锚固质量的检测技术对保证