论文部分内容阅读
数据挖掘是当前环境下的研讨热点之一,他需要对原始数据进行剖析来完成信息数据的分析,除此之外现有的规则和决策内容都会影响到最终的分析结果,其中关联规则是数据挖掘领域里最有研究价值的研究目标。早期关联规则挖掘方式相对静止,并不重视时间因素,它被认为能够忽视时间规则且保持稳定可行。可是在对挖掘结果的整理过程中,我们发现现实生活的规则往往受时间影响,由此得出关联规则需要考虑时间因素。但这一发现从未认识到不同的时间间隔对时间数据存在的影响。针对时间是动态变换的而规则是相对静止的这一状况,时序关联规则这一概念随之产生。时序关联规则挖掘中事务数据集基于年、月、日等时间粒度。即便时间因素已经被囊括进了考虑范畴,但是却没有解决如何划分时间粒度的问题。不同的时间粒度划分对关联规则挖掘的条数、质量和效率会产生极大影响。故而,为提高挖掘质量,研究具有普适意义的时间粒度动态划分方法是必不可少的。针对目前采用时间粒度静态划分方法会使得同一个规则呈现不同的趋势等问题,考虑到时间粒度的划分思想和聚类思想具有类似性,所以本文采用聚类分析这一方法来完成时间粒度的划分,随之提出了融合统计分析和自组织映射神经网络的时间粒度动态划分方法,而后应用于时序关联规则挖掘算法。在此研究基础上,根据武威市呼吸系统疾病病例数据和同期气象数据资料,分析两类数据的相关性,结合本文提出的时间粒度动态划分方法完成时间粒度的自动划分,建立时序关联规则挖掘模型。同时,针对气象数据间的层次关系,将数据分层加入到时态关联规则挖掘算法中,使算法更精确地提取有价值的规则。本文应用时序关联规则算法对实验数据进行了挖掘,发现了呼吸系统疾病与气象因子间隐藏的关联信息,说明融合统计分析和自组织映射神经网络的时间粒度动态划分这一方法能够将规则的变化过程表现地清楚透彻,而且能够及时地掌握规则的详细变化趋向,从而进一步提高时序关联规则挖掘的质量。