基于综合兴趣度的关联规则挖掘在鼻咽癌随访数据中的应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:hnyinhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景 鼻咽癌是我国南方多发肿瘤之一,其病因尚未明确。目前最有效的治疗手段是放射治疗。患者在放疗后出现远处转移和局部复发说明放疗效果不好,预后较差。鼻咽癌放射治疗的基本策略是:对早期患者使用不同剂量的放疗方案,对晚期患者实行放化疗联合治疗,以此降低转移和复发的发生率。而临床上常有一些晚期患者不经过化疗也不会出现肿瘤的远处转移,如果对这些患者进行放疗,就加大了患者的痛苦并增加了医疗费用。以往对鼻咽癌转移和复发影响因素的研究,通常是根据某一因素分组,考察转移和复发患者的频数分布差异,或是通过回归模型的拟合来考察各因素的影响效果,没有能找出发生转移和复发的鼻咽癌患者的综合特征。为达到此目的,可以借鉴数据挖掘中关联规则挖掘的方法寻找问题的答案。 关联规则挖掘是以频数为基础分析方法。其算法虽然日趋成熟,但在医学方面的应用尚少。关联规则算法本身在规则的选择上也存在一些问题。挖掘所得的规则数量庞大,很难将研究者感兴趣的规则挑选出来。以往的规则评价模式有“支持度一置信度”框架和提升度。而实践证明,这样的指标时常会得到荒谬的联系或冗余的信息。构建规则的评价指标,是完善关联规则挖掘方法,并扩大其应用领域的关键。本研究的主要目的是根据以往研究提示,构建一个新的关联规则兴趣度指标,并将关联规则挖掘的方法应用于鼻咽癌患者的随访数据中,刻划转移和复发患者的基本特征。 材料与方法 本次研究选取1990年1月1日至1999年12月31日在中山大学肿瘤防治中心治疗的1042例鼻咽癌住院病人五年随访资料,记录有患者基本信息,治疗前状态,诊断信息,治疗手段和预后情况等情况。通过离散化处理,将所有变量统一为离散型变量。 传统统计方法的分析:按照是否出现远处转移和局部复发将资料分为两组,观察各事件出现的频数分布差异,并拟合Logistic回归模型,筛选影响因素。 关联规则挖掘:利用自编程序将原始资料转化为关联规则挖掘所要求的数据格式,使用SAS软件中的Enterprise Mining模块对资料进行分析,置信度设为0.82,支持度设为0.25,选取与转移和复发有关的规则作为挖掘结果。综合以往研究中兴趣度的计算方法,将兴趣度的相关性和变异性作为加权考虑因素,利用自编SAS程序计算挖掘所得规则的综合兴趣度,并以此作为规则筛选的另一指标对关联规则进行筛选。 结果比较:将使用综合兴趣度得到的规则与传统统计方法所得结果进行比较,考察二者涉及的影响因素的异同,并以关联规则包含内容作为分层因素对资料进行分层卡方检验,论证关联规则频数计算的合理性。从内容表述上对提升度和综合兴趣度所得规则进行主观评价和比较。计算全部关联规则后项事件发生与不发生的优势Odds,并将其与提升度和综合兴趣度做相关性分析,比较提升度所得规则和综合兴趣度所得规则异同之所在。 结果 1042例鼻咽癌患者中,男性798例,女性244例,平均年龄45岁。放疗后出现远处转移的有273例,出现局部复发的有28l例。卡方检验结果显示,出现转移的患者在下列分组中的频数分布有差异:咽旁间隙,颈动脉鞘区,口咽,左颈部和右颈部有无侵犯,T,N分期,不同的颈部放疗时间、剂量及有无化疗;出现复发的患者在下列分组中的频数分布有差异:鼻腔,鼻窦和左颈部有无侵犯,T,N分期,不同的原发灶放疗时间和剂量以及颈部放疗时间。进一步采用回归分析筛选得到的影响因素,口咽倾犯情况,T,N分期为患者发生远处转移的危险因素,年龄,左颈部侵犯情况,颈部放疗天数和T分期是患者局部复发的危险因素,而颈动脉鞘区侵犯情况和原发灶放疗天数是复发的保护因素。 对资料进行关联规则挖掘,共得到2365442条规则。与转移有关的规则4414条,与复发有关的规则264条。利用提升度筛选的规则显示,翼腭窝,颞下窝,口咽部,颅内和颈动脉鞘区无侵犯是不发生转移的患者的共同特征;翼腭窝,颞下窝,鼻腔部,鼻窦,左颈部,颅内,颅神经无侵犯及颅底骨质无破坏是不出现复发的患者的共同特征,规则置信度分别在86%和83%以上。利用综合兴趣度筛选的规则显示,翼腭窝,颞下窝,口咽部,颅内和颅神经无侵犯,低分化鳞癌,不经化疗是无转移患者的共同特征;翼腭窝,颞下窝,鼻腔部和左颈部无侵犯,KPS评分高于80,原发灶68-70GY放疗及颈部无间断放疗是无复发患者的共同特征。规则置信度均在82%以上。按照规则所示内容,对资料进行分层卡方检验,多数规则除规则所涉及层次的频数分布差异有统计学意义外,其他各层差异均无显著性,而规则49和177则出现所有层次频数分布差异均无统计学意义的现象。 计算规则前项事件集合出现时后项事件出现与不出现的优势,并与提升度和综合兴趣度做相关分析。结果显示,规则的优势与提升度呈正相关,且关系紧密,与综合兴趣度呈负相关,紧密程度相对较低,与转移有关的规则中,该相关系数无统计学意义。 讨论 本次研究主要采用关联规则挖掘的方法对鼻咽癌患者的随访资料进行分析,试图得到转移和复发的影响因素,对此类患者的基本特征进行刻划。发现在鼻咽癌患者中存在的不易转移型患者的基本特征。这种特征与鼻咽癌的临床分期不同,是由于患者自身状况,肿瘤的生长特性以及相关治疗方式造成的。临床上可以根据这些特征在处理此类患者时调整治疗策略,减少患者痛苦并降低治疗成本。所得规则与卡方检验和Logistic回归结果比较后,发现所得关联规则能够揭示资料分层后的频数分布差异,筛选的影响因素与回归结果部分相同,不同部分经分层频数比较后显示差异确实存在。本研究根据兴趣度评价指标的变异性和相关性构建了关联规则评价和筛选的新指标:综合加权兴趣度,并将此指标得到的挖掘结果与以往的提升度指标所得结果进行对比。结果显示综合加权兴趣度所选择的规则包含内容更为丰富,且易于解释。通过比较规则事件发生与否的优势与提升度和综合加权兴趣度的关系,可以看出提升度所描述的是事件出现概率上的一致性,因而与优势值呈现较强的正相关性,而综合加权兴趣度则更关注规则的信息含量和可解释性,与优势值呈较弱的负相关性。通常出现紧密的事件,会有更多的限定条件,也更可能是现实中明显的联系,因而反映这种联系的规则不应该是研究者所感兴趣的。关联规则的兴趣度正是试图从这样的逻辑中寻找事件间未知的但又可以解释的联系。本研究提出的综合兴趣度应用在关联规则挖掘中一定程度上达到了这种目的,较提升度筛选和评价方法有所改进。
其他文献
多廿醇(policosanol)是从一种从甘蔗蔗蜡(suger cane wax)、蜂蜜蜡质(honey wax)或米糠蜡质(ruce bran wax)中制取和提纯的以正二十八醇[octacosanol CH3(CH2)26CH2OH]为主要
本文通过对荣华二采区10
目的:探讨腹腔镜联合经肛门拖出适形切除术治疗极低位直肠癌的手术安全性、可行性和经验体会。方法:2013年6月至2014年6月对8例符合Rullier极低位直肠癌外科学分类标准中Ⅱ、
随着社会经济的发展,广播电视事业对整个社会经济的影响越来越大,专业频道越来越受到人们的关注,因此需要建立完善的评价体系,推动广播电视事业不断发展。通过对节目评价体系
本文通过对发生在上海的9·27地铁十号线追尾事故的传播过程研究,对新媒介时代现场新闻的传播进行分析。并对传统媒体如何发挥自身作用提出了建议。 This article analyzes
机器人快速成型技术利用了机器人的柔性、组合加工能力强以及工作空间大的特点进行快速成型 ,本文研究截面填充扫描的算法 :用双向循环链表表示模型截面的边界 ,对截面区域进
设计了一种三层的人工神经网络用于特征的提取 ,然后用于人工牛黄和天然牛黄的鉴别 ,结果较好。 A three-layer artificial neural network is designed for the feature ex
针对事例特征权值的确定问题 ,提出了 Delphi和 AHP相结合的权值确定方法 ,以及二次规划模型权值确定法和信用统计权值确定法 .这些方法在事例特征权值的确定中 ,有助于减少
何顿对于上世纪八十年代末到九十年代初长沙“黄泥街”这条窄小的巷子——全国最大的图书批发市场的现实图景进行了新的赋予、补充和塑形。作者将历史与记忆的碎片重新组合、
改革开放以来,中国城镇化快速推进,城镇化率由1978年的17.92%提高到2010年的47.5%,创造了世界城镇化史的奇迹。快速城镇化为广播影视发展提供了前所未有的机遇,广播影视以信