基于reduct理论的数据描述

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:guoliangc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据描述是一类特殊的数据挖掘任务:根据用户需求,将定义在符号域上的信息系统(数据集合)约简为人可阅读的具有不同简洁程度的文本,同时,对约简过程中产生的例外进行分析.这个任务与认知心理学的"规则+例外"原理一致,它有三个要点:(1)根据用户需求获得解答;(2)不同简洁程度的文本;(3)例外分析.该文使用粗糙集理论中的reduct理论作为工具,形式化的阐述数据描述任务,并解决相应的计算问题.直接使用正区域与边缘区域描述规则与例外不符合人的认知,为了准确刻画"规则+例外"模型,该文将其修改为认知正区域与认知边缘区域.由于正区域是reduct理论的基础,并且对给定信息系统唯一,而认知正区域不满足唯一性条件,因此,我们重新定义与证明了基于正区域定义的所有概念与性质.用户通常希望给定需求下描述尽量简洁,我们用基于认知正区域的reduct定义文本粒子,作为数据集合的简洁描述.传统粗糙集理论的研究一般不关心边缘区域的结构,而"例外"与边缘区域密切相关.因此,我们详细的研究了边缘区域的结构与性质,以了解"例外"空间的结构,为例外分析奠定基础.为了有效鉴别例外,我们设计了一种特殊的差别矩阵来分析边缘区域的结构和例外的形成过程,并提出基于core属性的例外鉴别方法.Core与reduct是Reduct理论中的两个基本概念.Core有一个重要性质:如果一个属性是core属性,从信息系统中删除这个属性,必然导致边缘区域的改变.这个性质是计算例外的基础.此外,reduct与core之间存在一种特殊的关系:基于给定信息系统的reduct构成的新信息系统,其中所有属性均为core属性.这暗示着,如果我们能够计算出信息系统的reduct,那么从这个reduct中逐步删除属性,即可生成不同简洁程度的文本与派生例外.对大规模数据构成的信息系统,使用该方法进行数据描述的先决条件是寻找快速的可以根据需求计算reduct的算法.该文在分析前人算法的基础上,发现计算reduct空间的中间表示是影响算法效率的关键,为此,提出了一种样本个数呈线性的计算reduct的树表示算法,并且,在这种表示下,计算reduct理论的其他概念同样有效.我们证明,这个算法对reduct完备,且与基于属性序reduct算法等价.该论文的主要成果是:1.基于树表示的reduct、core等基本概念的快速计算方法,其复杂性与样本个数呈线性关系.2.提出"认知正区域"与"认知边缘区域"以刻画"规则+例外"模型,并证明了其性质.3.对边缘区域进行了详细分析,证明其性质,并设计一种特殊的差别矩阵分析边缘区域的结构和例外产生的原因.4.提出基于core属性的例外鉴别方法.
其他文献
研究各种状态下的交通流及其表达参数之间的关系,寻求最适合交通状态的理论模型,并在模型的基础上结合现代新理论、新技术对其进行建模仿真,分析交通系统的运行特性,是交通流研究
软件复用是在软件开发中避免重复劳动的解决方案。它将已有的软件及其有效成分用于构造新的软件或系统,使得应用系统的开发不再采用一切从零开始的模式,而是以已有的工作为基础
  立体视觉是计算机视觉研究领域的一个重要课题,人们一直希望可以利用计算机实现类似于人类视觉系统的功能。在计算机视觉众多待解决问题中,立体匹配问题是最重要也是最困难
本文对高功率超宽带脉冲辐射源组成的三大部分--单极性脉冲发生器、双极性脉冲发生器和天线的工作原理及技术参数做了简要的介绍,对其辐射系统中的发射天线进行了大量深入的
随着经济发展和生活水平提高,社会对安全的需求快速增长,中国社会经济加速转型也使得安全问题更为突出,以视频监控为主导的技术防范手段将越来越得到人们的关注。目前我国的
网络显示器属于手持终端的范畴,通过以太网和串口进行通信,主要用于工业场所的远程数据显示,具有较高的实用价值和较好的市场前景。 本文介绍了手持终端和嵌入式技术的国
随着实时计算机图形学的发展,其应用领域越来越广。三维实时渲染算法的选择基本上决定了一个交互式图形系统的性能,将相关算法组合起来,就构成了一条渲染管线。不同的应用环境有
工业以太网作为下一代控制网络技术,受到了广泛的关注和重视。针对目前工业设备的特点,结合以太网的优势,本文以Rabbit2000作为中央处理器研制了嵌入式通讯采集器。该设备提
电话信道的人名识别系统,是电话语音识别应用中的一个亮点。在真实的电话通信环境中,说话人所处环境中的各种噪声和电话信道的传输过程,会直接影响到电话语音数据的信噪比。在PC
信息存储技术是伴随着人类社会和科学技术的进步而发展的,尤其是近年来计算机和互联网技术的发展,需要存储、传播、处理和利用的信息量在急剧增加,信息的大规模存储、传输和处理