论文部分内容阅读
临床资料数据库的特点主要有:①数据集含有的观察数目较大,变量多,包含的信息丰富。②数据的收集不可避免地包含了错误的信息.③数据库中含有不同程度的缺失值。④数据库中各变量之间的关系复杂,变量很难满足正态性和独立性。所以,利用传统的统计学方法较难对其进行有效的处理,导致所获的信息相对较小。 关联规则挖掘是数据挖掘的一种模式,目的是发现数据中各种属性及属性组合之间的联系。以形如A(?)B的规则来表现数据中蕴涵的信息,规则的获取是以数据中项或项组合协同出现的频率为基础,结果易于理解。将关联规则挖掘引入医学资料的分析之中,弥补传统统计学方法的不足,最大可能地获取数据中含有的信息是本研究的目的。 但目前关于关联规则应用方面的文献中对规则有意义的评价却不一致,采用了不同的评价方法,而对这些评价方法的研究还比较少。本研究在熟悉关联规则基本理论和实现方法的基础上,对如何获取有意义的关联规则进行了模拟数据研究和实际资料的应用研究。 模拟试验研究表明:①基于可信度提高的方法对多项规则的剪除是非常必要的,可信度提高倍数为0.05较适合;②文献中介绍的一些度量函数并不都适合用于医学资料的关联规则分析中,有的甚至是误导性的;③Fisher确切概率法是比较好的度量函数,适合于不同样本例数的资料,而作用度(lift)等适合于大样本资料,但在界值的确定上需慎重。最后,根据研究结果并结合文献,对关联规则分析临床资料数据库的流程进行了总结。 实际资料的应用研究表明:①使用Fisher确切概率法作为度量函数对小样本资料进行关联规则分析是可行的,可以弥补Logistic逐步回归应用的缺陷,又可以较全面地揭示资料中蕴涵的信息;②对于大样本、多变量的肝癌资料,除使用Fisher确切概率法外,还应结合其他度量函数如作用度(lift)和列联系数(C),便于对规则的进一步分析理解;③充分结合研究者的主观评价,主要通过模板匹配的方式实现,将获取的规则集中于研究者感兴趣的方面;④利用获取的规则可以进行变量筛选、危险因素分析,为下一步统计分析提供依据,为肝癌的诊断、治疗提供参考;⑤关联规则分析方法对不完整数据有较好的适应性,它无需对缺失数据进行填存,只需要在参数的设置上进行一些调整