论文部分内容阅读
由于计算机的迅速普及和互联网的广泛流行,产生了数据和信息的汪洋大海。要想从中获取隐藏、有用的知识,就要使用各种学习算法和方法。而许多学习算法要求输入的属性值是离散的,由此引出了许多连续值属性的离散化的方法,如根据领域专家的经验给出相应的区间;或根据某种划分原则对输入空间进行划分,给出离散点进行离散化。根据是否利用类信息,离散化方法可分为有监督和无监督的方法;根据是对所有连续属性同时离散化还是单个属性单独离散化,可分为全局方法和局部方法;也可根据划分是在分类之前还是分类时做出的而分为静态方法和动态方法。常用的离散化的策略有:空间等分法、自适应方法、等频率区间法、基于类信息熵的方法等,在众多的离散化方法中,不论是哪一种,都很难得到一个直观的、容易理解的离散结果。在本文中,首先介绍了各种常见的离散化算法和方法。在此基础上,本文提出一个基于模糊语言的数据语言摘要和语言规则的抽取算法,通过对数据库的数据语言摘要的抽取和语言规则的抽取,达到对连续属性模糊离散化的目的。该离散化过程具有如下优点:(1)所得结果直观明了。若直接观察数据库,难以发现其中的知识。本文中提出的离散化算法也因为是用语言值描述的结果,离散结果容易理解;(2)所得结果都具有具体的支持度。可以给定某个阀值,给出各种支持度的语言命题和语言规则,满足各种不同的需求;(3)该抽取的过程智能程度较高,只需要输入每个语言值的阀值、摘要或规则的支持度阀值,就能输出自然语言的命题或规则。在抽取的过程中,首先根据属性值的分布特点,由专家给出合理的语言值隶属函数,或者是用遗传算法,确定较合理的语言值隶属函数,从而达到优化离散连续属性的目的。基于每一个语言值的隶属函数,计算每个对象在该语言值上的隶属度,超过给定阀值的对象做一记录,得到一个某种程度上符合某个语言值得对象集,同理,可以得到其他语言值的对象集,对这些对象集做交运算,得到在某种程度上的对象集交集。描述这个对象集的自然语言,就是该数据库上的一个语言命题。而从数据库中抽取语言规则的过程,和语言命题抽取过程大致类似。在介绍离散化的过程中,以Iris数据库为例,抽取出描述该数据库的语言命题和语言规则,并以得到的语言规则对其中的某些个体作判断,得到较好的结果。