基于关联规则的领域本体概念提取技术研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:fogstorm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义网作为一种可以建立在理解的基础上进行人与机器智能交互的网络,能够实现从“内容匹配”到“机器理解”的跨越,已成为人们未来设想和期望的网络。本体作为一种描述语义和知识的概念模型,是实现语义网信息智能交互的重要媒介和核心组成部分。目前,本体已经在一些特定领域中得到了广泛应用,例如知识工程、语义检索等领域,但本体的构建工程量非常巨大,而且主要依靠手工完成,所以非常消耗资源。因此,需要一种本体学习的方法来智能或半智能的方式创建一个新的本体或者基于现有本体进行扩展,以提高构建本体的效率以及构建本体的智能程度,减少人工的参与和本体构建的工程量,同时还可以减少人工在本体构建过程中出现的主观问题。领域本体学习中,领域本体概念的提取非常关键,因为领域本体概念间的关系对本体概念具有依赖性,所以本体概念间关系提取的准确率和完备性很大程度上取决于领域本体概念的准确率和完备性。为了提高领域本体概念的提取质量,本文将关联规则和语义规则引入本体领域概念提取中。本文研究的主要内容如下:候选领域本体概念的提取。由于领域本体概念主要由名词和名词性短语构成,利用分词系统对语料进行处理处理过程中,只提取具有能构成名词、名词性短语词性的词作为候选本体概念。同时用物理关系位图记录分词后的候选本体概念之间的物理相邻关系,以应用于关联规则的频繁项挖掘技术。提出领域隶属度的概念,并对其形式化定义和计算模型的构建。通过计算术语之间的关系构建概念关系矩阵,然后基于概念关系矩阵通过术语在研究领域中的深度和广度值,定量分析术语与领域的隶属程度,即进行领域隶属度检查。制定语义规则。基于前人对汉语的研究成果和现有汉语处理工具对词性进行标注,然后结合自然语言的句法、词法规则和分词系统的内在特性,对名词和名词性短语结构进行分析和提炼,制定语义规则。领域本体概念的生成。候选领域本体概念集是一个粗糙的本体概念集合,为了得到高准确率和高完备性的领域本体概念集合,需要对候选本体概念集进一步优化。利用相关性和一致性检查技术过滤领域无关术语和领域通用术语;通过领域隶属度过滤隶属度低于设定阈值的术语(包括合成术语和非合成术语);最后结合语义规则对复合术语集合中不能构成名词和名词性短语的术语进行过滤,提取领域本体概念。
其他文献
由于通信和电脑技术的进步使得能够开发出低成本、低耗电、多功能的传感器,这些传感器的体积很小而且具备感知、计算和短距离无线通信的能力,而一个无线传感器网络就是由许多
无线网状网络是一种高容量高速率的多点对多点网络,具有动态自组织性、自愈性,是一种新型的可以解决“最后一英里”瓶颈问题的分布式网络,是下一代无线网络的一种关键技术。
现有对等网络点播平台中数据源服务器是唯一稳定的媒体数据提供者,对等网络中无法获取的数据请求均会指向数据源服务器,随着视频点播规模的增大,频繁的数据请求导致数据源服
如何高效应对公共突发事件是我国各级政府面临的重要任务,虽然有大量的应急指挥系统在各地不断实施,但缺乏数据、缺乏协同、缺乏业务支持、缺乏指导等问题依然没有得到很好的解
随着JAVA的普及和流行,J2EE平台也在WEB开发中发挥着越来越大的作用。伴随其的各种新技术如雨后春笋般大量的涌出。为了更好的研究J2EE体系架构,本文采用了业界流行的Struts、H
虚拟视觉坐标测量机是坐标测量中一个新的研究领域,有着重要的理论意义和广阔的应用前景。本文主要对视觉坐标测量的仿真环境进行研究,包括对视觉坐标测量机的仿真模型及其仿
图像检索的主要技术包括:图像特征的提取,图像特征的索引及检索。基于颜色直方图的图像检索可以快速地提取出图像索引,但颜色直方图仅仅表示图像中各种颜色的统计分布,而没有
网络的发展加大了安全类软件的需求,而与之相悖的是安全类软件的高难度、高风险,周期长的特点。为解决这一问题,对安全中间件软件的研究逐渐发展了起来。在此背景下,本文根据
P2P流媒体直播系统通常采用单一码率的方式传输数据,由于网络环境、终端设备的差异以及P2P本身拓扑结构的动态变化,往往导致无法缓冲到足够的数据,另一方面,也可能无法给高带
人们对计算机网络的依赖程度越来越大,而且越来越多的系统采用了分布式体系结构,这给传统的网络安全技术带来巨大的压力。网络系统的可生存性正是在这个阶段提出来的。可生存