论文部分内容阅读
近年来,非小细胞肺癌严重威胁着人类的健康。非小细胞肺癌可分为腺癌、鳞状细胞癌、大细胞癌等多种子型,其中腺癌与鳞状细胞癌占据所有非小细胞肺癌的一半以上。目前基于组织细胞形态学的方法难以区分非小细胞肺癌子型。已研制的治疗非小细胞肺癌的靶向药物仅对非鳞状非小细胞肺癌患者疗效显著。分子层次上,设计非小细胞肺癌的早期诊断方法,研制有效治疗非小细胞肺癌的靶向治疗药物,研究非小细胞肺癌发生发展机理等均是目前国内外活跃的研究领域。 基于分子层次研究非小细胞肺癌子型间的差异,能够帮助理解非小细胞肺癌子型的发生发展机理,同时能够为有效地诊断、治疗非小细胞肺癌提供帮助。本文主要围绕以下三个内容研究非小细胞肺癌子型间的差异:与不同非小细胞肺癌子型相关的基因;非小细胞肺癌子型分类的特征选取;非小细胞肺癌不同子型间通路关系的异同。主要研究工作如下: 不同条件下功能差异较大的基因与其他基因间关系也有较大差异。据此,提出了一种基于网络结构差异分析,寻找在不同表型中功能差异较大的基因的新方法。首先建立了对应于不同表型的基因网络集合。利用网络拓扑指标度量不同表型网络结构的差异程度,选择能够有效区分网络结构的拓扑指标。利用所得指标,寻找对网络差异有贡献的基因。在非小细胞肺癌子型数据上,得到了区分网络结构效果较好的有效指标,并且得到了在两种表型中功能差异较大的基因。通过数值试验,验证了所得有效指标及基因的可靠性。该方法能够用于挖掘癌症子型间功能差异较大的基因,帮助区分癌症子型。 为了识别与癌症子型发生发展密切相关的基因,我们提出了一种建立基因以及基因序对与表型间关系的新方法。该方法度量了探针或者探针序对与表型间的相关性,得到探针或者探针序对与表型间的关系。进而,利用探针与基因间的对应关系,基于探针或者探针序对与表型间关系寻找基因或者基因序对与表型间的关系。在非小细胞肺癌与正常数据集上,利用召回率以及分类准确率作为性能衡量标准,对算法性能进行评估,并与两个具有代表性的算法进行比较。实验结果表明新算法在召回率以及分类准确率上都表现出了良好的性能,且优于已有的两个具有代表性的算法。在非小细胞肺癌子型数据集上,得到了多个与非小细胞肺癌子型具有紧密联系的基因及基因序对。统计检验分析能够说明所得关系的可靠性。另外,发现了非小细胞肺癌子型的标识基因以及具有重要作用的生物功能。新方法能够帮助寻找区分癌症子型的基因,帮助设计癌症的靶向治疗药物,同时也可以揭示与癌症关联紧密的生物过程。 对于癌症分类特征选择问题,提出了一种基于基因以及基因序对的特征选择方法。通过计算基因及基因序对与类别变量间的相关性,选择了与类别相关性较强的基因及基因序对;消除了所得基因及基因序对中的冗余特征;在所得特征子集的基础上,分别利用常见的分类算法选择了使得分类效果最优的特征集合。该方法有别于已有研究中仅以基因或者基因序对为选择对象,而是同时考虑基因和基因序对。在四个数据集上,证明了在选择基因及基因序对过程中所提假设的合理性。利用平均分类误差,在四个数据集上对算法进行有效性评估,并与三种已有的具有代表性的算法进行比较。实验结果说明算法能够得到分类效果较的特征集合,且与已有的三种算法相比,在分类效果上有了较好的改善。该算法能够有效地选择特征,使得分类达到良好的效果。 为了研究癌症不同子型间通路关系的异同,提出了一种挖掘通路间协同调控关系的方法。该方法寻找各通路所包含的基因;建立了基因间的协同调控关系;随后将基因间的协同调控关系映射于通路上。将该方法应用于非小细胞肺癌子型数据上,利用统计检验方法说明所得通路间关联关系的可靠性。重点研究几个通路在不同子型中关联关系的异同,发现在不同子型中通路间的关联关系存在差异。该方法有助于理解癌症不同子型发病机制的异同。