论文部分内容阅读
多值关联规则可视化挖掘是借助可视化技术来描述数据库中多值数据项(属性、变量)之间存在的潜在频繁模式和相关关系。可视化技术能够无缝的集成到关联规则发现过程中,将挖掘结果直观清晰地展现出来,用户能够更快、更容易地识别出隐藏在数据内部的有用信息,提高决策效率。作为知识的一种可视化表现形式,概念格已经被人们应用到数据挖掘领域。文章利用概念格理论提出了多值属性关联规则可视化挖掘解决方案,通过数据源可视化、交互式参数调整与可视化挖掘过程、多值属性关联规则挖掘算法、频繁项集与关联规则的可视化以及关联规则的知识表示等机制,使用户可不依赖领域专家直接进行关联规则可视化挖掘。该方案在提高挖掘效率的同时,提高了挖掘结果的可用性。论文以研究和实现基于概念格的多值属性关联规则可视化挖掘为核心,主要做了以下几方面工作:1.运用概念格理论给出了适合关联规则可视化挖掘的多值属性数据分类,并建立了较为完善的挖掘过程参数调整机制。根据某省全员人口数据的特点,结合概念格理论给出了适合多值属性关联规则可视化挖掘的多值背景定义,将其分为数值型多值属性、区间型多值属性和类别型多值属性三类;建立了以支持度、置信度、关键属性因子和概念层因子为基础的参数调整机制,在整个挖掘过程中通过调整相关参数的大小来挖掘相应的频繁项集和关联规则,方便用户选择关键属性值进行规则挖掘分析,提高算法运行速度和挖掘效率。2.提出了基于关键属性因子和概念层因子的Apriori改进算法。针对传统关联规则挖掘算法用户无法选择关键数据进行分析、不利于处理多值属性数据及效率低下等问题,提出了基于关键属性因子KAF因子和概念层因子CHF因子的Apriori改进算法进行多值属性关联规则挖掘。同Apriori算法相比,改进后的挖掘算法在执行速度和挖掘效率上具有更好的性能表现。3.给出了基于概念格的多值属性关联规则可视化方法。由于传统关联规则可视化方法无法展现数据间的频繁模式和关系、缺乏多模式展现形式等,提出了一种新的多值属性关联规则可视化算法。通过引入概念格把多值属性数据项有机地组织起来,使数据之间的关系通过概念格节点的泛化与特化关系直观地体现出来,不仅便于用户对频繁项集进行可视化展示和动态分析,而且实现了一对一、一对多、多对一、多对多以及概念分层的多模式关联规则可视化展示。4.给出了基于概念图的关联规则知识表示方法。鉴于传统关联规则表示方式无法展现领域知识、数据项间的关系及规则中所隐含的信息等问题,提出了一种基于概念图的关联规则知识表示方法,包括模式定义和模式解析,结合概念图理论将关联规则转换成概念图的知识表示形式,使数据项之间的关系利用概念节点和关系节点表现出来。展示结果接近自然语言形式,具有较强的可读性,有助于用户对关联规则进行深入分析和研究。