论文部分内容阅读
研究背景
鼻咽癌是我国南方多发肿瘤之一,其病因尚未明确。目前最有效的治疗手段是放射治疗。患者在放疗后出现远处转移和局部复发说明放疗效果不好,预后较差。鼻咽癌放射治疗的基本策略是:对早期患者使用不同剂量的放疗方案,对晚期患者实行放化疗联合治疗,以此降低转移和复发的发生率。而临床上常有一些晚期患者不经过化疗也不会出现肿瘤的远处转移,如果对这些患者进行放疗,就加大了患者的痛苦并增加了医疗费用。以往对鼻咽癌转移和复发影响因素的研究,通常是根据某一因素分组,考察转移和复发患者的频数分布差异,或是通过回归模型的拟合来考察各因素的影响效果,没有能找出发生转移和复发的鼻咽癌患者的综合特征。为达到此目的,可以借鉴数据挖掘中关联规则挖掘的方法寻找问题的答案。
关联规则挖掘是以频数为基础分析方法。其算法虽然日趋成熟,但在医学方面的应用尚少。关联规则算法本身在规则的选择上也存在一些问题。挖掘所得的规则数量庞大,很难将研究者感兴趣的规则挑选出来。以往的规则评价模式有“支持度一置信度”框架和提升度。而实践证明,这样的指标时常会得到荒谬的联系或冗余的信息。构建规则的评价指标,是完善关联规则挖掘方法,并扩大其应用领域的关键。本研究的主要目的是根据以往研究提示,构建一个新的关联规则兴趣度指标,并将关联规则挖掘的方法应用于鼻咽癌患者的随访数据中,刻划转移和复发患者的基本特征。
材料与方法
本次研究选取1990年1月1日至1999年12月31日在中山大学肿瘤防治中心治疗的1042例鼻咽癌住院病人五年随访资料,记录有患者基本信息,治疗前状态,诊断信息,治疗手段和预后情况等情况。通过离散化处理,将所有变量统一为离散型变量。
传统统计方法的分析:按照是否出现远处转移和局部复发将资料分为两组,观察各事件出现的频数分布差异,并拟合Logistic回归模型,筛选影响因素。
关联规则挖掘:利用自编程序将原始资料转化为关联规则挖掘所要求的数据格式,使用SAS软件中的Enterprise Mining模块对资料进行分析,置信度设为0.82,支持度设为0.25,选取与转移和复发有关的规则作为挖掘结果。综合以往研究中兴趣度的计算方法,将兴趣度的相关性和变异性作为加权考虑因素,利用自编SAS程序计算挖掘所得规则的综合兴趣度,并以此作为规则筛选的另一指标对关联规则进行筛选。
结果比较:将使用综合兴趣度得到的规则与传统统计方法所得结果进行比较,考察二者涉及的影响因素的异同,并以关联规则包含内容作为分层因素对资料进行分层卡方检验,论证关联规则频数计算的合理性。从内容表述上对提升度和综合兴趣度所得规则进行主观评价和比较。计算全部关联规则后项事件发生与不发生的优势Odds,并将其与提升度和综合兴趣度做相关性分析,比较提升度所得规则和综合兴趣度所得规则异同之所在。
结果
1042例鼻咽癌患者中,男性798例,女性244例,平均年龄45岁。放疗后出现远处转移的有273例,出现局部复发的有28l例。卡方检验结果显示,出现转移的患者在下列分组中的频数分布有差异:咽旁间隙,颈动脉鞘区,口咽,左颈部和右颈部有无侵犯,T,N分期,不同的颈部放疗时间、剂量及有无化疗;出现复发的患者在下列分组中的频数分布有差异:鼻腔,鼻窦和左颈部有无侵犯,T,N分期,不同的原发灶放疗时间和剂量以及颈部放疗时间。进一步采用回归分析筛选得到的影响因素,口咽倾犯情况,T,N分期为患者发生远处转移的危险因素,年龄,左颈部侵犯情况,颈部放疗天数和T分期是患者局部复发的危险因素,而颈动脉鞘区侵犯情况和原发灶放疗天数是复发的保护因素。
对资料进行关联规则挖掘,共得到2365442条规则。与转移有关的规则4414条,与复发有关的规则264条。利用提升度筛选的规则显示,翼腭窝,颞下窝,口咽部,颅内和颈动脉鞘区无侵犯是不发生转移的患者的共同特征;翼腭窝,颞下窝,鼻腔部,鼻窦,左颈部,颅内,颅神经无侵犯及颅底骨质无破坏是不出现复发的患者的共同特征,规则置信度分别在86%和83%以上。利用综合兴趣度筛选的规则显示,翼腭窝,颞下窝,口咽部,颅内和颅神经无侵犯,低分化鳞癌,不经化疗是无转移患者的共同特征;翼腭窝,颞下窝,鼻腔部和左颈部无侵犯,KPS评分高于80,原发灶68-70GY放疗及颈部无间断放疗是无复发患者的共同特征。规则置信度均在82%以上。按照规则所示内容,对资料进行分层卡方检验,多数规则除规则所涉及层次的频数分布差异有统计学意义外,其他各层差异均无显著性,而规则49和177则出现所有层次频数分布差异均无统计学意义的现象。
计算规则前项事件集合出现时后项事件出现与不出现的优势,并与提升度和综合兴趣度做相关分析。结果显示,规则的优势与提升度呈正相关,且关系紧密,与综合兴趣度呈负相关,紧密程度相对较低,与转移有关的规则中,该相关系数无统计学意义。
讨论
本次研究主要采用关联规则挖掘的方法对鼻咽癌患者的随访资料进行分析,试图得到转移和复发的影响因素,对此类患者的基本特征进行刻划。发现在鼻咽癌患者中存在的不易转移型患者的基本特征。这种特征与鼻咽癌的临床分期不同,是由于患者自身状况,肿瘤的生长特性以及相关治疗方式造成的。临床上可以根据这些特征在处理此类患者时调整治疗策略,减少患者痛苦并降低治疗成本。所得规则与卡方检验和Logistic回归结果比较后,发现所得关联规则能够揭示资料分层后的频数分布差异,筛选的影响因素与回归结果部分相同,不同部分经分层频数比较后显示差异确实存在。本研究根据兴趣度评价指标的变异性和相关性构建了关联规则评价和筛选的新指标:综合加权兴趣度,并将此指标得到的挖掘结果与以往的提升度指标所得结果进行对比。结果显示综合加权兴趣度所选择的规则包含内容更为丰富,且易于解释。通过比较规则事件发生与否的优势与提升度和综合加权兴趣度的关系,可以看出提升度所描述的是事件出现概率上的一致性,因而与优势值呈现较强的正相关性,而综合加权兴趣度则更关注规则的信息含量和可解释性,与优势值呈较弱的负相关性。通常出现紧密的事件,会有更多的限定条件,也更可能是现实中明显的联系,因而反映这种联系的规则不应该是研究者所感兴趣的。关联规则的兴趣度正是试图从这样的逻辑中寻找事件间未知的但又可以解释的联系。本研究提出的综合兴趣度应用在关联规则挖掘中一定程度上达到了这种目的,较提升度筛选和评价方法有所改进。