基于粗集理论的KDD技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:qunimad41197579
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尽管对KDD技术的研究已经取得了丰硕的成果,但是进一步研究KDD技术仍然具有重要的实际意义。众多的理论和工具都已经成功地应用于解决KDD过程中的某些具体问题,粗集理论是其中最具发展前景的工具之一。由于基于粗集模型的智能数据分析过程可以不依赖外界参数或先验知识,因此粗集理论具有其它工具无法比拟的优势,研究基于这一理论的KDD技术就有望为KDD过程提供更为理想的解决方案。在KDD的数据集成阶段,数据离散化是其中一件非常重要的工作。有效的离散化可以显著地提高系统对样本的聚类能力,增强系统对数据噪音的鲁棒性。粗集理论已经成功地应用于数据离散化。论文对典型的基于粗集模型的启发式数据离散化过程进行了深入研究:首先提出了新的计算候选断点集合的方法,在同样能够保证系统分辨关系的前提下,按照该方法得到的候选断点集合的基数远远小于按传统方法得到的结果;其次,论文研究了通过“断点分辨矩阵”来度量候选断点重要性的启发式方式。度量候选断点的重要性不但要考虑该矩阵的列方向特征,而且还要以适当的方式考虑矩阵的行方向特征。但是,列和行方向特征对候选断点重要性的反应能力是不对称的,后者不如前者准确。在此基础上,定义“断点选择概率”来度量断点的重要性。断点选择概率不但具有明确的物理意义,而且充分考虑了“断点分辨矩阵”列和行方向特征的差异,将这两个方向的特征合理地统一起来。最后,提出了基于断点选择概率的结果断点集合计算方法。算法分析和仿真实验结果表明,所提出的算法可以高效率和高性能地解决数据离散化问题。在KDD的数据集成阶段,特征子集选择是其中另一件非常重要的工作。特征子集选择不但可以缩减学习系统的规模,而且能够有效地从系统中剔除冗余信息,从而凸显系统中数据之间潜在的相互联系,最终能够提高数据挖掘结果的应用性能和应用精度。论文深入研究了特征子集选择技术,提出了高效的属性核计算方法,定义了“系统熵”概念,并以属性对系统熵的影响为启发式依据来度量属性之间的相对重要性。系统熵的计算较“条件熵”简单,并且能够有效地克服条件熵的不足,不但能够度量系统中非冗余属性之间的相对重要性,而且能够分辨冗余属性之间的相对重要性。论文揭示了系统熵的一些代数性质,研究了它在取值规律上的固有倾向。在有效地抵消了其固有取值倾向的影响之后,基于系统熵概念定义了“属性重要性”概念,并将其应用到反向删除方式的特征子集选择算法<WP=5>中。算法分析和仿真实验结果表明,所提出的算法能够高效率地解决特征子集选择问题,并能够得到比较理想的结果。由于决策规则本质上是一种以决策属性集合为标签的分类规则,因此决策规则的学习过程本质上就是样本分类规则的挖掘过程。由于通过传统的基于粗集模型的学习算法得到的决策规则描述和体现的主要是不同类型样本之间的分辨特征,不能反映同类型样本之间的共同特征,于是,论文提出了一种新的决策规则学习算法,该算法能够产生完备的决策规则系统,在规则的学习过程中,不但考虑了不同类别样本之间的分辨特征,而且也注重提取同类型样本之间的共同特征。仿真测试结果表明,该算法具有较高的学习精度,并且对系统的不一致性具有较强的适应能力。由于对系统的任何智能处理过程都有可能影响到系统的不确定性,因此系统不确定性的度量方法是一个具有实际意义的重要问题。定量地描述系统的不确定性有助于观测和跟踪系统不确定性的变化规律,从而据此来分析相应的处理过程对系统的影响趋势和影响程度,甚至可以在一定程度上反映和评估这些处理方式的合理性。论文首先分析了现有的基于粗集模型的系统不确定性度量方式,然后提出对决策信息系统,可以用条件熵来度量其不确定性,分析了条件熵在其取值规律上与系统不确定性概念之间的一致性;对决策规则系统,首先将系统的不确定性分为随机性和冲突性两种,分别刻画了它们具体的表现形式,然后给出了相应的不确定性度量方法。最后研究了系统不确定性对典型的决策规则学习算法性能的影响,得到了一些有益的结论。
其他文献
随着我国优生优育政策的提出和人们优生优育意识的提高,孕妇的身心健康越来越受到重视。早孕反应是指妊娠6~12周之间出现的以不同程度的恶心、呕吐为主要表现的症候群,早孕反应
长寿区人民医院具有六十多年的历史,是长寿地区专业设置最齐全,设备最先进,设施最完善,规模最大,集医疗、教学、科研、预防、保健为一体的国家二级甲等综合性医院。系重庆医科大学
糖尿病足是糖尿病所引起的严重并发症[1],糖尿病足不但导致患者生活质量下降,而且造成巨大的社会、经济负担,其中5%~10%的患者需要截肢手术。作者收集本院2000年1月~2006年5月560例
&#39;中国梦&#39;是全体中华儿女共同的愿望,他不仅是民族的梦,更是人民的梦。要实现这个伟大的梦,当代大学生责无旁贷。在高校内深入开展&#39;中国梦&#39;宣传教育活动,不仅
纳米是一种长度单位,1纳米等于十亿分之一米.纳米技术是指在0.1~100nm的量度范围内研究和利用原子、分子的结构和特征及相互作用的高新科学技术[1].它是在现代物理学、现代化
目的探讨常压氧疗法(又称舱外高流量吸氧)的临床应用价值,选择合理方案,提高治疗效果.方法分析2 016例常压氧治疗患者疾病构成、年龄分布、综合疗效及治疗依从性及相互关系.
为避免干混砂浆在气力输送环节中容易出现的离析现象,造成打破干混砂浆料原有配比、影响砂浆性能的危害,设计新型多孔卸料口装置,保证不同高度的干混砂浆料同时从卸料管道流
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
相对于温度传感(热光调制器)和电压传感(电光调制器)应用,将聚合物作为无源波导材料用于集成光波导化学传感(倏逝波相位传感)是个新的尝试。与其它光波导材料相比,聚合物降低了