论文部分内容阅读
2019年国家癌症中心发布的全国癌症统计数据表明肺癌的粗发病率和死亡率均居于恶性肿瘤的首位.非小细胞肺癌(Non-Small Cell Lung Cancer,NSCLC)是肺癌的主要类型.目前研究多集中于影像或者基因等单模态数据,综合利用多模态数据的研究相对较少.实际上,挖掘多模态数据之间的互补信息,一方面可以发现解释性较强的影像特征,另一方面可以从基因数据中选择与肿瘤发生、发展相关的基因,从而定性和定量分析NSCLC中不同亚型的生物标记物,提高肿瘤的识别精度.因此,结合临床实际需求,综合利用多模态数据,并对数据做深层特征分析和挖掘,即具有理论意义,也具有实际应用价值.基于此,本学位论文针对影像基因组学数据,基于人工智能机器学习方法进行深层特征分析,并对多模态进行关联分析,最终用于NSCLC智能识别.主要工作概括如下:1.构建了一种信息基因选择的统计量化指标.首先,针对当前常用指标受试者工作特征曲线和曲线下面积存在的问题,结合临床实际需求,从理论上构建了一种信息基因选择的统计指标-最大净收益(Maximum Net Benefit,MNB),并分析了其可行性和可辨别性.在美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)提供的NSCLC数据库和三种不同类型的数据库上进行实验,其准确度、敏感性和特异性的值均表明将MNB应用于基因选择时,优于同类其它基因选择方法.2.提出了一种集成的信息基因选择方法,并用于NSCLC识别.考虑到基因表达数据的相似性和微阵列基因表达数据具有高冗余的特点,提出了一种集成的信息基因选择方法,其集成过程分为两个阶段,第一个阶段是将基因聚成共表达模块,第二个阶段是从第一个阶段聚成的共表达模块中筛选信息基因.具体方法是首先应用加权基因共表达网络(Weighted Gene Co-Expression Network,WGCN)将表达相似的基因聚到同一个基因模块,其次应用MNB从每一个基因模块中筛选候选致病基因,再通过反投影稀疏表示分类模型进行NSCLC识别.实验结果表明集成的信息基因选择方法的分类识别结果是最好的.3.基于影像和基因等多模态数据进行关联分析,并应用于NSCLC识别.基于影像和基因关联分析的NSCLC识别过程分为四个阶段,第一个阶段是对影像进行特征学习,第二个阶段是将基因聚成共表达模块,第三个阶段是跨模态建立影像与基因数据之间的关联分析,第四个阶段是从影像和基因的关联分析中挖掘的互补信息进行NSCLC的识别.具体方法是首先分别基于影像和逐层预训练多层稀疏非负矩阵分解模型提取底层特征和深层特征.其次考虑到基因表达数据的相似性和同一个基因可能参与多个生物学过程的事实,选择局部最大拟群合并(Local Maximum Quasi-Clique Merging,lm QCM)算法将基因聚成共表达模块.最后对影像特征与基因模块进行关联分析,应用MNB从与影像特征相关性较强的基因模块中筛选候选致病基因,将其与影像特征结合进行NSCLC识别.在癌症影像档案(The Cancer Imaging Archive,TCIA)提供的影像和NCBI提供的相匹配的基因数据库上的实验结果表明:影像基因关联分析优于单独基于基因或影像的NSCLC识别结果,在无创识别NSCLC中不同亚型的生物学标记物上具有明显的优势.