论文部分内容阅读
1982年,Z.Pawlak提出粗糙集理论,为处理不确定数据提供了一个很好的方法。近年来,粗糙集理论及其应用发展发展十分迅速,主要都着眼于粗糙集模型的概化、粗糙集中不确定理论的分析、粗糙集相关操作及其关联性、粗糙集与其他数学理论的联系等等。现在,粗糙集理论已经应用于很多研究领域,比如机器学习、决策分析、进程控制、模式识别、数据挖掘等。而在信息检索领域,粗糙集也常被用于表达信息的不确定性,来将信息检索扩展到语义检索方面。本文中,将对粗糙集在语义检索及语义本体构建中的作用进行研究。目前,对本体的定义很多,其中最著名定义是由Gruber提出的,“本体是概念化的明确的规范说明”。应用于计算机领域的本体从概念上说是个实体,就是把现实世界中的某个领域抽象为一组概念及概念之间的关系。本体技术关注的概念的共享,是智能主体在相互交流中对特定领域问题的基本概念范畴的共同约定,它非常适合于描述互联网上各种不同的、分散的、半结构化的信息资源。通过定义共享的、通用的领域理论,本体帮助人和计算机明确的交流,使人类、计算机能够实现知识的共享和重用,方便地进行知识的交互和协作。语义本体是在一定领域内,根据本体论理论基础上对现有语义网内所有文本信息所进行的分类和结构化,在本体支持下实现信息系统间语义上的互操作性,以及对网络资源所进行的智能访问和检索。随着语义本体的广泛应用,如何快速而精确地构建语义本体也变得非常重要。作为构建语义本体的重要环节,形式概念的特征提取是必不可少的。在数据挖掘领域中,不确定数据的重要性日益提升。其中粗糙集理论已经多次被应用于文本特征提取,并且进行了不断的改进。而模糊数据跟自然语言的紧密联系也使其成为了语义本体构建过程中不可或缺的一部分。另外,在云环境应用日益广泛的今天,如何在云环境下对本体构建进行部署和语义检索也是一个重要的课题。本文主要是基于粗糙集和其他不确定数据理论知识来进行语义本体构建的改进,并在此基础上,考虑了云环境下语义本体的构建框架和基于此框架的语义检索流程。主要研究工作包括:(1)结合动态粗糙集理论与欧氏距离,对现有的文本特征提取进行改进。综合考虑文本集合的特点以及用户的需求,并且摆脱了本体构建过程中对决定属性子集的依赖,对文本进行更加快速精确的特征提取。(2)基于模糊数据理论基础,结合层次聚类和语义本体构建方法,对原有的粗糙语义本体构建方法进行了改进,提出了一个新的粗糙语义本体的构建方法,可以同时考虑数据分类的粗糙性和数据属性的模糊性。(3)针对云环境下的数据部署,提出一个语义本体构建的新方法,对云环境下的文本数据部署进行了规划使其更适宜于本体的构建,并提出适宜于云环境的语义检索流程。