论文部分内容阅读
随着健康问题的关注度与日俱增,人们对疾病诊断与预测的时效性要求逐渐提高,同时对疾病诱发因素的探知欲也迅速增强。在当前可用于医疗诊断的数据挖掘与人工智能算法中,关联规则算法可以方便地发现诱发疾病的潜在因素,因此,该算法可以较好地满足人们的探知欲,在疾病诊断与预测问题中具有极高的研究价值。然而,传统的关联规则算法存在一定的局限性:1)不适应数据类型的多样性-医疗数据往往存在类别型、数值型与连续型混合的现象;2)不满足海量流式数据处理的时效性-医疗数据往往要求在限定的时间内完成数据的分析和处理,而且是大批量,处理过即可删除的数据。这些局限性限制了其在疾病诊断与预测方面的发展。 论文以医学诊断与预测为研究对象,在对相关文献总结的基础上,采用多目标优化、施密特正交化、频繁项集挖掘及关联规则算法,对如何高效处理类型多样化数据与巨量流式数据等问题进行创新性研究,以期为疾病相关频繁项集的效率提升、疾病相关规则准确率的提高以及医疗数据的规则优化提供一些新方法与新思路。论文的创新性研究工作主要体现在四个方面: 1.提出了基于优化的模糊关联规则(Optimal Fuzzy Association Rule Mining(OFARM))方法,设计了处理连续数值型数据的多目标优化方案,改善了输出规则质量并优化模糊集对应的划分点;提高了关联规则挖掘算法的性能。出现在论文中的性能指标,主要包括输出关联规则的质量、数量等度量标准。 2.提出了基于模糊关联规则参数的自动优化(Dynamic Optimisation based Fuzzy Association Rule Mining(DOFARM))方法,引入了数据分布平衡参数,权衡了模糊转化中产生的不均衡现象;减少了优化规则质量所需的迭代次数;从整体上降低了算法耗时,提高了模糊关联规则挖掘算法的效率。 3.提出了一种静态的增量式频繁项集挖掘(Static Incremental Frequent Item-sets Discovering(Static Inc-FID))方法,定义了持续性因子,给出了基于持续性因子的频繁项集挖掘算法;为实现不需重复扫描任何历史批次数据簇即可得出全局频繁项集的目的,设计了全局支持度值计算方案;证明了其值在数据量越大的情况下,越接近真实的全局支持度值。 4.提出了一种动态的增量式频繁项集挖掘(Dynamic Incremental Frequent Item-sets Discovering(Dynamic Inc-FID))方法,引入了衰减率因子,将静态的增量式方法通过基于动态调整衰减率因子的扩展而适应不同的数据流处理模型,比如地标,衰减和滑动窗口模型;增强了频繁项集挖掘算法的普适性。