连续属性的离散化及知识获取的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:sgzhou22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于计算机的迅速普及和互联网的广泛流行,产生了数据和信息的汪洋大海。要想从中获取隐藏、有用的知识,就要使用各种学习算法和方法。而许多学习算法要求输入的属性值是离散的,由此引出了许多连续值属性的离散化的方法,如根据领域专家的经验给出相应的区间;或根据某种划分原则对输入空间进行划分,给出离散点进行离散化。根据是否利用类信息,离散化方法可分为有监督和无监督的方法;根据是对所有连续属性同时离散化还是单个属性单独离散化,可分为全局方法和局部方法;也可根据划分是在分类之前还是分类时做出的而分为静态方法和动态方法。常用的离散化的策略有:空间等分法、自适应方法、等频率区间法、基于类信息熵的方法等,在众多的离散化方法中,不论是哪一种,都很难得到一个直观的、容易理解的离散结果。在本文中,首先介绍了各种常见的离散化算法和方法。在此基础上,本文提出一个基于模糊语言的数据语言摘要和语言规则的抽取算法,通过对数据库的数据语言摘要的抽取和语言规则的抽取,达到对连续属性模糊离散化的目的。该离散化过程具有如下优点:(1)所得结果直观明了。若直接观察数据库,难以发现其中的知识。本文中提出的离散化算法也因为是用语言值描述的结果,离散结果容易理解;(2)所得结果都具有具体的支持度。可以给定某个阀值,给出各种支持度的语言命题和语言规则,满足各种不同的需求;(3)该抽取的过程智能程度较高,只需要输入每个语言值的阀值、摘要或规则的支持度阀值,就能输出自然语言的命题或规则。在抽取的过程中,首先根据属性值的分布特点,由专家给出合理的语言值隶属函数,或者是用遗传算法,确定较合理的语言值隶属函数,从而达到优化离散连续属性的目的。基于每一个语言值的隶属函数,计算每个对象在该语言值上的隶属度,超过给定阀值的对象做一记录,得到一个某种程度上符合某个语言值得对象集,同理,可以得到其他语言值的对象集,对这些对象集做交运算,得到在某种程度上的对象集交集。描述这个对象集的自然语言,就是该数据库上的一个语言命题。而从数据库中抽取语言规则的过程,和语言命题抽取过程大致类似。在介绍离散化的过程中,以Iris数据库为例,抽取出描述该数据库的语言命题和语言规则,并以得到的语言规则对其中的某些个体作判断,得到较好的结果。
其他文献
GIS应用程序有桌面GIS应用程序与WebGIS应用程序两种:桌面GIS应用程序一般速度很快,具有漂亮的用户界面和良好的动态性;WebGIS是建立在Internet上具有浏览器/服务器体系结构的网
调光系统广泛应用于剧场、体育馆、电视台演播厅、音乐会、大型LED广告牌等场所。灯光的效果对整个舞台的布景、运动员水平的发挥、广告效果以及音乐会场气氛都有很大的影响
随着数字通信网络技术与多媒体技术的迅速发展,越来越多的多媒体作品通过网络的形式发布,使信息的发布和传输变得方便快捷。但数字作品具有极易被非法复制和篡改的特性,任何人都
无线传感器网络由大量的微型网络传感节点构成,这些节点被用于测试、传感、收集、处理被观测对象,节点收集的信息被发送到远端用户。对这样大量长时间部署的节点的应用很可能
司法部门的信息化建设对于提高工作效率、加强司法公正是十分重要的。法院综合管理信息系统采用以网络技术为支撑平台,以“沟通、协作、协调”为基本理念,通过对司法部门的信息
随着数据通信的飞速发展,相对于有线网络,无线网络已经有着越来越广泛的应用。但是,虽然无线网络有着灵活性的优势,但在性能方面和有线网络还存在一定的差距,例如速率、覆盖范围、
网格系统是将地理上分布不同、系统异构、性能各异的各种资源,通过高速互连网络连接起来形成的广域范围的资源共享和协同计算环境。网格计算技术的出现,使得我们可以突破地理位
随着世界网络化和数字化的快速发展,搜索引擎成为网络用户不可缺少的一部分。基于内容的图像检索由于语义鸿沟,检索出来的图像并不能满足用户的需求。无论使用哪一种特征(颜色
近年来,随着信息技术的发展与普及,在智能控制、商务、金融、实验科学研究、信息服务等应用领域提出了一系列新的复杂智能决策问题,它们具有海量数据、包含随机因素、要求环境适
人类获取客观世界信息的主要途径是图像,而图像在获取和传输过程中容易受到各种各样的干扰,如光学图像容易被高斯白噪声干扰。噪声会大大降低图像的分辨率,严重影响图像的后续处