论文部分内容阅读
电子病历的广泛应用,医疗设备以及仪器的数字化,使得病历数据库的信息量不断增长。目前多数医院对数据库的处理还局限于对数据的简单操作,如数据的插入、修改、查询、删除等,缺乏对数据的集成和分析,也谈不上医疗决策和知识的自动获取。如何从海量的医疗信息中运用数据挖掘技术来了解各种疾病间的相互联系,掌握其发展规律成为当前医疗数据挖掘的热点。挖掘信息对疾病的诊断、治疗以及医学研究有重要价值。数据挖掘的方法很多,关联规则挖掘是研究的重要方法之一,文章针对甲状腺电子病历数据量大、更新速度快的特点,提出了一种挖掘有效关联规则的技术。该技术运用区间归并法与特征区间法相结合的离散化方法对病历中的数据进行预处理;在规则生成的核心算法中,提出了优化的增量更新FUP算法,算法通过对新旧数据库设定不同的支持度得到病历各属性间的关联规则。实验验证了改进算法的有效性,挖掘结果对掌握疾病的症状与诊断的相互关系有重要价值,对了解疾病的诊断、治疗、发展规律和医学研究都有重要意义。本文主要完成了以下几个方面的工作:(1)对大量电子病历数据进行了集成、清洗等预处理操作。在清洗过程中,对病历数据进行了特征分析,运用区间归并法与特征区间法相结合的离散化方法对病历中连续属性的数据进行了离散化。(2)深入分析了关联规则的Apriori算法和增量更新FUP算法,提出了优化的增量更新FUP算法,通过实验验证了算法对病历数据在时间、空间及其结果方面的有效性。(3)运用提出的优化算法对甲状腺病历数据进行挖掘,得到了甲状腺病历的关联规则。文章探索了适合医疗数据库中数据挖掘的有效方法和工具,挖掘结果有一定的医学研究价值。