面向医疗数据的模糊关联规则算法优化及其增量式方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jimmyreagan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着健康问题的关注度与日俱增,人们对疾病诊断与预测的时效性要求逐渐提高,同时对疾病诱发因素的探知欲也迅速增强。在当前可用于医疗诊断的数据挖掘与人工智能算法中,关联规则算法可以方便地发现诱发疾病的潜在因素,因此,该算法可以较好地满足人们的探知欲,在疾病诊断与预测问题中具有极高的研究价值。然而,传统的关联规则算法存在一定的局限性:1)不适应数据类型的多样性-医疗数据往往存在类别型、数值型与连续型混合的现象;2)不满足海量流式数据处理的时效性-医疗数据往往要求在限定的时间内完成数据的分析和处理,而且是大批量,处理过即可删除的数据。这些局限性限制了其在疾病诊断与预测方面的发展。  论文以医学诊断与预测为研究对象,在对相关文献总结的基础上,采用多目标优化、施密特正交化、频繁项集挖掘及关联规则算法,对如何高效处理类型多样化数据与巨量流式数据等问题进行创新性研究,以期为疾病相关频繁项集的效率提升、疾病相关规则准确率的提高以及医疗数据的规则优化提供一些新方法与新思路。论文的创新性研究工作主要体现在四个方面:  1.提出了基于优化的模糊关联规则(Optimal Fuzzy Association Rule Mining(OFARM))方法,设计了处理连续数值型数据的多目标优化方案,改善了输出规则质量并优化模糊集对应的划分点;提高了关联规则挖掘算法的性能。出现在论文中的性能指标,主要包括输出关联规则的质量、数量等度量标准。  2.提出了基于模糊关联规则参数的自动优化(Dynamic Optimisation based Fuzzy Association Rule Mining(DOFARM))方法,引入了数据分布平衡参数,权衡了模糊转化中产生的不均衡现象;减少了优化规则质量所需的迭代次数;从整体上降低了算法耗时,提高了模糊关联规则挖掘算法的效率。  3.提出了一种静态的增量式频繁项集挖掘(Static Incremental Frequent Item-sets Discovering(Static Inc-FID))方法,定义了持续性因子,给出了基于持续性因子的频繁项集挖掘算法;为实现不需重复扫描任何历史批次数据簇即可得出全局频繁项集的目的,设计了全局支持度值计算方案;证明了其值在数据量越大的情况下,越接近真实的全局支持度值。  4.提出了一种动态的增量式频繁项集挖掘(Dynamic Incremental Frequent Item-sets Discovering(Dynamic Inc-FID))方法,引入了衰减率因子,将静态的增量式方法通过基于动态调整衰减率因子的扩展而适应不同的数据流处理模型,比如地标,衰减和滑动窗口模型;增强了频繁项集挖掘算法的普适性。
其他文献
随着移动通信技术的发展和大数据时代的到来,互联网中涌现出大量蕴含着巨大价值的数据,如微博、产品评论等。海量的数据对数据的处理技术及数据挖掘方法带来了空前的挑战。顺序
关联规则挖掘是数据挖掘中一个重要分支,其应用领域已从最初的零售业扩展到电信业、金融保险业以及IT业等。而数量关联规则挖掘是关联规则挖掘的重要研究方向,它是解决关系型
非线性系统存在于大部分的自然和社会现象中,其丰富多样的运动模式和复杂多变的运动过程对于我们认识客观世界发挥着重大作用。而混沌作为非线性科学领域的重要分支,揭示了自
随着数据管理复杂度和维护成本的增加,采用共享存储系统进行IO整合已成为业界一种趋势。但并发应用间的干扰造成了性能的不可预测性,为此对共享存储系统提出了性能虚拟化的需求
无线传感器网络节点定位算法受到越来越多研究人员的关注,成为当前的研究热点之一。然而,越来越多的攻击方式使定位受到很大的影响,尤其对基于非测距的定位算法而言,能影响网
随着软件技术的发展和对软件可靠性要求的提高,人们越来越重视软件质量。软件测试作为保证软件质量的一种重要技术,在整个软件开发成本中占有重大比重,提高软件测试效率具有
访问控制是一项实现既定信息安全策略的系统安全技术,在系统中,如果出现合法用户非法使用资源或者非法用户入侵系统资源的情况,访问控制策略都能够对其进行有效控制。在可信
随着通信系统的用户数量不断增加,同时用户对高速数据业务的需求日益提高,移动通信系统的容量、覆盖范围及质量都要达到更高标准。据统计,70%的移动业务发生在室内,而墙壁的
随着企业信息化进程的不断推进,企业业务系统的数量在不断的增加,各业务系统之间的相关性也越来越大。例如公司的计费系统和财务系统,财务系统和人事系统之间都不可避免地有
注意选择机制是人类视觉感知的一个重要特性,如果将人类视觉系统的这一机制引入到计算机视觉系统中,势必会提升现有计算机图像分析性能和效率。为了探索人类视觉注意机制的计算