偏最小二乘方法在肿瘤细胞分类中的应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zhao330300096
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤是世界上危及人类身体健康的主要疾病之一。肿瘤的早期发现,对其诊断和治疗都具有重要的意义。基因芯片技术的发展为肿瘤的早期预测,诊断以及预后带来了新的手段。但由于基因表达谱数据具有小样本、高维度的特点,这就给后期的数据分析提出了新的挑战。如何选择合适的方法进行肿瘤样本分类,根据海量的肿瘤基因表达谱数据选取尽量少的分类识别能力强的特征基因用于诊断,认识肿瘤产生和发展的机制并最终达到临床治疗的目的,是当前面临的关键性问题。偏最小二乘作为一种统计学方法,它不受变量分布形式、样本量小于变量数和变量间的多重共线性的影响,对于基因表达谱数据的处理有很强的优势。本文将研究的重点放在利用偏最小二乘方法高维的肿瘤基因表达谱数据进行降维、选择分类特征基因并且用于肿瘤分类,主要开展如下工作:   1.基于偏最小二乘算法降维框架进行了类Logistic分类方法的研究,选取分类效果较好的方法。类Logistic函数是任意一个定义在(-∞,+∞),值域为[-1,+1]的递增且可逆的函数,它可以代替Logistic函数进行Logistic回归。偏最小二乘降维框架,包括三个方面:基因表达谱数据的预处理、特征基因预选取、偏最小二乘主成分提取以及主成分选择。偏最小二乘降维框架将特征预选取与偏最小二乘降维算法整合到一个框架中,这样便可以在一个统一的框架下,更准确、有效地选取分类性能较好的类Logistic函数,构建新的分粪模型。   2.将样条偏最小二乘算法应用于肝癌基因表达谱数据分析中,通过基因显著性分析算法进行特征基因的预选取,将偏最小二乘降维方法变化为样条偏最小二乘方法。针对高维小样本基因表达谱数据所显现的变量间严重共线性、类别变量与预测变量的非线性关系,采用了基于样条变换的偏最小二乘回归新技术。首先通过筛选法去除基因数据中的冗余信息,然后以三次B样条变换实现非线性基因数据的线性化重构,随后将重构的矩阵通过偏最小二乘法(PLS)构建类别变量与预测变量间的关系模型。最后,通过对肝癌肿瘤基因表达谱数据的分析,结果显示此分类模型对数据重构稳健,有效地解决了高维小样本基因表达谱数据问的过拟合和变量间的共线性,具有较高的拟合精度和预测正确率。   3.提出一种新的特征基因选择方法(PLS_Variabie Importance in Projection_Correlation Forward Floating Search: PLS_VIP_CFFS),它是将偏最小二乘变量投影重要性指标与启发式前向浮动搜索结合。利用PLS_VIP_CFFS方法对胃癌、肺癌、白血病等4组基因表达谱数据集进行特征基因的选择,将选择结果与支持向量机,聚类分析和Logistic判别等分类方法结合对原数据集处理,考察特异性,敏感性及平均准确率等指标,并从生物学角度分析选取的特征基因。PLS_VIP_CFFS在4组数据集上选取的特征基因具有较强的生物意义,结合多种分类器得出各项指标以及分类正确率都比较高,从而证明了PLS_VIP_CFFS可以作为一种可靠的特征基因选取方法。
其他文献
温度是工业过程常见的被控变量,由于其复杂的传热特性,温度具有大滞后、强非线性的特点,采用单一数学模型无法准确描述其特征,采用单一控制策略无法满足其控制要求。本文以实
近十年来,光学成像等分子影像模态蓬勃发展,大大推动着医学影像技术的进步。通过分子标记的特异性成像可从功能、代谢上拓展原有传统成像模态的成像能力。分子影像将不仅能使
驾驶员疲劳驾驶是造成道路交通死亡事故的重要原因之一,驾驶疲劳检测已逐渐成为智能运输系统(ITS)研究的热点之一。为了给判定疲劳程度提供数据保证,因此对获取驾驶员状态实时
在控制系统中,系统的主要性能指标以及稳定性受控制信号的准确性和实时性的影响很大。而现代的网络控制系统中存在着各种各样的智能型的传感设备以及低成本的数字化智能仪表,
控压钻井技术近年来在国内外得到了逐步的应用。该技术结合控压钻井装备,利用自动控制理论与控制方法实现井底压力或者井口压力的精确控制,以适应窄密度窗口等一系列复杂情况
近年来,作为智能交通系统(Intelligent Transportation System,ITS)的重要组成部分,先进公共交通系统(Advanced Public Transportation System,APTS)取得了显著发展。发展公共交
城市的不断扩大使给水管网建设需求不断增加,管网系统的建设资金投入也随之增加,而给水管线的投资占到总投资的50%以上,通过对城市给水管网优化设计可以在保证用水需求的同时尽量
对于离散时间系统,当输入的刷新周期和输出的采样周期不相同时,通常被称为多率系统。多率系统广泛存在于工业过程中,例如,化工过程控制中的软测量问题就可以归结为多率系统建
汽车驾驶模拟器可用于对驾驶行为和汽车运动性能进行研究,也可用于对驾驶员的培训。其可提供逼真的驾驶环境,以搜集各式的驾驶习惯和反应数据,借此可在安全的前提下分析驾驶特性
测量雨水管道中雨水的流速能够为预测城市暴雨积水的发生提供必要的基础测量数据。管道雨水成分多样、流动型态复杂、变化剧烈,传统的测流方法很难有效测量。借鉴粒子图像测速