多标准分类中的属性约简及规则提取

来源 :河北大学 | 被引量 : 0次 | 上传用户:meheaven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实际应用中有许多信息系统同时含有无序的符号值属性和有序的连续值属性,例如UCI数据库中的Iris数据集是根据取连续值的萼片和花瓣的长、宽来判别花的种类;股票公司对股民投股的预判,可以依据股民的性别、年龄和投资金额三个属性特征来进行分类。这里我们把有序的属性称为“标准”,则上述分类称为多标准分类问题。在此类问题中,单纯的基于等价关系或优势关系来对信息系统进行处理,不能处理混合类型的数据,同时也降低了所抽取规则的可解释性。为解决多标准分类问题,我们在无序的符号值属性上引入等价关系,而对于有序的连续值属性仍旧用基于优势关系的方法来对其进行处理。研究内容如下:1、针对条件属性为有序值而决策属性为无序符号值的信息系统,引入优势-等价关系的定义,并给出了一种基于样例对的矩阵约简算法。区别于传统的基于辨识矩阵约简方法,该算法在不计算辨识矩阵的前提下,通过选择样例对来找到辨识矩阵中对约简有用的属性,因此能够明显改善计算约简的时间耗费。除此之外,为了处理较大规模的数据,我们提出了一种近似约简算法。该算法按属性重要性添加属性到约简中,进一步缩短了求取约简的时间。最后,在UCI数据集上进行大量的实验并与传统的约简算法进行了对比,结果表明了所提出算法的有效性。2、将所提出的近似约简算法应用到动态信息系统中。即在增加或删除多个样例时,仅更新优势集便可快速得到约简,同时给出了更新原理。最后在UCI数据集上的实验表明,该方法在与传统的更新方法和浓缩优势矩阵方法相比较时,在保持相同或更简约简集的情况下,明显减少了时间耗费,提高了约简效率。3、针对条件属性中同时含有无序和有序值的多标准分类问题,引入混合信息系统的定义。在此基础上,给出混合信息系统下优/劣势集及决策类的上下近似的定义以及覆盖式的规则提取方法。最后用提取出的规则对测试样例进行分类。通过实验表明,与采用单调规则的方法相比,我们所提出的方法能够提取更多的规则并且在分类精度略有提高的情况下明显缩短了运行时间。
其他文献
山西汾西正晖煤业有限责任公司昌元煤矿属急倾斜煤层.煤层倾角在60°-72°之间.由于历史开采的原因.致使昌元煤矿存在大面积的露头和隐伏火区及塌陷区。经多次论证后。
农业科技转化为生产力的关键在于农业人才的培养,地方农业高校作为培养农业人才的摇篮,培养出适应现代农业发展的人才成为首要任务。通过对农学专业实践教学现存的人才培养目标
1引言面对国内外食品安全严峻形势,在盐业体制改革的市场环境下,我国盐业企业需要高度关注食盐安全面临的风险,贯彻落实新的《食品安全法》有关规定和盐改方案对食盐安全的要
2010年以来,银行理财产品逐渐成为投资新热点,本文通过调查了解银行理财业务现状,分析当前银行理财业务显现出的"影子银行"特性干扰宏观政策效果、引发恶性竞争和潜在信誉危
在实际生活中,居民的基本消费需求在其全部消费需求中占有特殊地位。居民首先必须具备最基本的消费支付能力,才能实现他的基本消费需求,才能保证劳动力的正常再生产。因此,研
“互联网+教育”深刻改变着现代教育的教学模式、人才培养方式及课程体系等重多方面,项目教学法是应用技术人才培养的方法之一,以具体建筑工程项目为教学对象,以项目建设过程为教
核能作为人类历史上的一项伟大发现,应用领域非常广泛,其中最常见的形式就是核能发电——核电提供了全球约10%的电力供应。核能能量密度高,1千克铀235全部裂变释放出的能量相当
报纸
骨肉瘤是一种临床常见的骨的原发性恶性肿瘤,居骨恶性肿瘤的第一位,恶性程度高,易于侵袭和转移,预后极差。骨肉瘤的发生发展是一个涉及多阶段的复杂的过程,其具体机制尚不十
大分子体系的理论计算一直是具有挑战性的研究领域,尤其是表面活性剂大分子体系的理论研究具有重要意义。运用量子化学方法研究表面活性剂的定量结构-性质关系,可以帮助人们
年近岁末,传来喜讯,陕西省委宣传部“重大文化精品”资助项目——大型秦腔现代戏《大树西迁》,在全国30部“2008-2009年度国家舞台艺术精品工程”初选剧目的激烈角逐中,脱颖