关联规则及其在肝癌病人资料分析中的应用研究

被引量 : 8次 | 上传用户:scarab1130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
临床资料数据库的特点主要有:①数据集含有的观察数目较大,变量多,包含的信息丰富。②数据的收集不可避免地包含了错误的信息.③数据库中含有不同程度的缺失值。④数据库中各变量之间的关系复杂,变量很难满足正态性和独立性。所以,利用传统的统计学方法较难对其进行有效的处理,导致所获的信息相对较小。 关联规则挖掘是数据挖掘的一种模式,目的是发现数据中各种属性及属性组合之间的联系。以形如A(?)B的规则来表现数据中蕴涵的信息,规则的获取是以数据中项或项组合协同出现的频率为基础,结果易于理解。将关联规则挖掘引入医学资料的分析之中,弥补传统统计学方法的不足,最大可能地获取数据中含有的信息是本研究的目的。 但目前关于关联规则应用方面的文献中对规则有意义的评价却不一致,采用了不同的评价方法,而对这些评价方法的研究还比较少。本研究在熟悉关联规则基本理论和实现方法的基础上,对如何获取有意义的关联规则进行了模拟数据研究和实际资料的应用研究。 模拟试验研究表明:①基于可信度提高的方法对多项规则的剪除是非常必要的,可信度提高倍数为0.05较适合;②文献中介绍的一些度量函数并不都适合用于医学资料的关联规则分析中,有的甚至是误导性的;③Fisher确切概率法是比较好的度量函数,适合于不同样本例数的资料,而作用度(lift)等适合于大样本资料,但在界值的确定上需慎重。最后,根据研究结果并结合文献,对关联规则分析临床资料数据库的流程进行了总结。 实际资料的应用研究表明:①使用Fisher确切概率法作为度量函数对小样本资料进行关联规则分析是可行的,可以弥补Logistic逐步回归应用的缺陷,又可以较全面地揭示资料中蕴涵的信息;②对于大样本、多变量的肝癌资料,除使用Fisher确切概率法外,还应结合其他度量函数如作用度(lift)和列联系数(C),便于对规则的进一步分析理解;③充分结合研究者的主观评价,主要通过模板匹配的方式实现,将获取的规则集中于研究者感兴趣的方面;④利用获取的规则可以进行变量筛选、危险因素分析,为下一步统计分析提供依据,为肝癌的诊断、治疗提供参考;⑤关联规则分析方法对不完整数据有较好的适应性,它无需对缺失数据进行填存,只需要在参数的设置上进行一些调整
其他文献
溯源技术详细记录了数据对象的全部历史信息,在食品安全等诸多领域有着广泛的应用。将溯源技术融入产品信息管理系统是一个具有广阔前景的方向,也是确保产品质量的重要技术手段
包括电视塔和输电塔在内的高耸塔架结构由于其自身的高柔特性,在外荷载作用下振动强烈。电视塔结构往往质量和刚度分布很不均匀,结构鞭梢效应显著。而大跨越输电塔结构也由于结
采用热水和稀酸预处理蔗渣后,根据Bj rkman法从蔗渣样品中分离出7种木素。此外,从蔗渣硫酸盐制浆黑液中分离出硫酸盐木素(KL)。利用二维核磁(1H-13C HSQC NMR)和磷谱(31P NMR
通过分析蜂窝胞元中取出的Y型单元,推导了正六边形蜂窝胞元的相对密度计算公式,并分析了蜂窝的典型动态压溃过程;通过自制刀具切割蜂窝板得到了外径为+100的三种规格(0.06mm(胞元壁
痤疮(Acne)为常见的慢性毛囊皮脂腺炎症性皮肤病,发病率较高,90%以上青春期男女可有不同程度皮损,严重者可引起毁容,15%病情较重而需要治疗。痤疮丙酸杆菌(P.Acne)刺激皮脂中
为了研究宁波地区野生换锦花鳞茎中主要成分的含量差异,以采自舟山大猫岛及宁波市北仑洋涨岙、奉化萧王庙、象山鹤浦、镇海招宝山、慈溪海黄山等6个地区的野生换锦花鳞茎为实
行政不作为是指行政主体及行政公务人员在其所属职责权限范围内,负有积极实施的法定作为义务而在法定或合理期限内应当作为也可能作为的情况下而实质不为的违法行政行为。(行
当今电子技术飞速发展,大规模、超大规模集成电路越来越多的应用到电子系统中。高速信号设计在整个电子设计领域所占的比例越来越大,100 MHz以上的系统已随处可见,这样就带来了
探讨高效率的外语教学模式在国内外语言教学界都是一个不断有人涉足的课题。国外外语教学界对于外语教学效率模式的探讨,在西方教学理念的嬗变和当今外语教学界的研究中都有
人工湿地技术是一项建造和运行费用低、水质净化效果较好的污水资源化生态工程技术,其水力学因素对于系统处理效果的影响较大,而国内对于人工湿地系统内部机理,特别是对水力