信息系统的约简与粒度分析及其在数据挖掘中的应用

来源 :上海大学 | 被引量 : 0次 | 上传用户:babydir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在粗集理论和模糊集理论的基础上,对完整信息系统的约简问题进行了研究。主要工作分为两大部分:理论部分研究了信息系统的约简以及约简过程中出现的信息粒度变化,应用部分把作者在论域约简和属性约简研究中取得的部分成果应用到人口普查数据集中,取得了令人满意的结果。研究成果可直接应用于数据挖掘中,具有重要的理论和现实意义。具体来说: 1) 分析了属性约简的代数性质和信息熵变化规律,设计了高效的属性约简算法。通过分析发现:可能约简与近似约简不等价,可能约简不能保持条件属性对决策属性的正区域不变,也不能保持条件信息熵不变,近似约简、μ-约简能保持条件属性对决策属性的正区域不变,同时保持条件信息熵不变。讨论了在各种属性约简下信息系统的信息粒度变化,发现只有可区分约简能保持粒度视图不变。结合协同进化算法和并行算法的思想,提出并实现了并行协同进化算法,用该算法求取属性集合的最小可区分约简,得出了令人满意的结果。最后对并行计算涉及到的属性约简结果的融合问题进行了探讨。 2) 提出并研究了离散格。将一个信息表的各种可能离散化方案组织成一个格空间,称为离散格。证明了离散格是一个布尔代数,给出了离散格的表示定理。构造了离散格到划分格的映射,研究了离散格及划分格中的信息粒度变化规律、条件属性对决策属性的正区域和条件信息熵的变化规律。分析了几类离散化算法,指出这些算法的求解过程正是对离散格的搜索过程。 3) 讨论了决策表论域约简的原理和算法。论域约简是指对决策表对象集合的压缩。提出了决策表的连续性假设作为论域约简的基本前提,采用了两种决策表决策能力判断方法,给出了三种论域约简算法,研究了信息粒的表现形态。文中还讨论了增量式数据挖掘中的知识约简,提出在历史知识库的建设中,可以对知识进行约简,只保留有新意的知识。 4) 成功地对人口普查数据集进行了约简。将基于邻域系统的论域约简算法和并行协同进化属性约简算法应用到人口普查数据集中,通过论域约简、属性约简和属性约简的融合,得出了与个人总收入密切相关的若干有价值的属性。
其他文献
本文首先介绍了几类离散神经网络模型的由来及其研究概况,利用Schauder不动点原理证明了一类具有广义输入输出函数的离散神经网络模型平衡点(也就是不动点)的存在性,利用Lyapun
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文以聚合反应工业中广泛使用的连续搅拌反应釜(Continuous Stirred-Tank Reactor CSTR)为对象,运用现代控制理论与计算机控制技术,对实际CSTR的建模,状态估计及最优控制策略进
目的:通过研究清胆颗粒对正常大鼠及模型动物胆汁及病理组织的影响,确定其利胆功效,为临床应用提供依据.方法:采用胆管引流法测定清胆颗粒对正常大鼠胆汁量的影响;应用石胆酸
丽阳遗址位于湖北省钟祥市胡集镇丽阳村。遗址堆积从春秋战国时期延续到明清时期。从陶瓦、盆的大量发现等现象分析,发掘者认为丽阳遗址可能具有古驿站、馆舍遗存的属性。 L
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
糖尿病病人进行胰岛素皮下注射治疗,其最大的副作用是出现低血糖.低血糖除可引起广泛性脑损伤,尚可诱发脑梗死和心肌梗死.现对我院糖尿病患者进行胰岛素皮下注射后,出现低血
通过页岩气参数井钻探施工,总结在页岩气参数井领域采用多级绳索取心技术施工工艺,探讨水敏性地层施工的关键技术,为今后在该领域的同类工程施工提供参考。