面向肿瘤诊断的SELDI蛋白质谱数据特征提取研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:wangbadanwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是危害人类健康的最大杀手。研究发现,即使在没有任何症状的早期阶段,癌症患者的蛋白水平已经发生变化,这些发生了变化的特异蛋白质被称为疾病的“生物标志物”(Biomarker),不断发现的特异性肿瘤标志物更为攻克癌症带来新希望。理论上,如果可以洞悉蛋白质的奥秘,便能了解疾病(比如肿瘤)发生发展的机理,从而实现对疾病的早期诊断和早期治疗。但是,绝大多数的蛋白对于癌症诊断来说是多余的、不相关的,其仅与少部分蛋白即生物标志物相关。如何筛选出这些生物标志物,成为疾病蛋白组学研究的一个热点问题。从模式识别和机器学习角度看,基于SELDI-TOF-MS的蛋白位点选择可以归为特征选择问题。线性判别分析(LDA)是模式识别的一个经典的特征提取算法。但是,SELDI-TOF-MS数据本身具有维数高、样本数量少和数据特征位点非独立的特点,将会使LDA算法的类内散布矩阵奇异,从而导致算法失效。另外,特征提取相对于特征选择,会将特征转换到新的领域,使产生的新特征更具判别性、更有利于分类,但是由此产生的新特征会难以体现生物学意义。针对上述问题,本文考虑结合质谱的频率域特征,采用小波变换提取数据的细节信息,降低特征维数与计算量。采用零空间LDA算法解决“小样本”问题,运用该特征提取算法进行特征选择,以保留生物学意义。并且对其运用递归框架,降低挑出特征间的相关性。从而挑选出具有较高分辨率且具有生物学意义的原始蛋白位点。本研究选用了卵巢癌、前列腺癌公共样本集以及由浙江省肿瘤医院提供的乳腺癌临床样本进行分析和数值实验。在自身陈述结果的基础上,与其他经典方法从分类性能和相关性等方面进行对比。实验结果表明,1)与经典方法相比,本方法在多个样本数据集上所选取的特征子集不仅具有较好的分类性能,而且大大降低了挑选出的特征间相关性。2)本算法能够挑选出少量的几个具有较高判别性能,并具有生物学意义的蛋白位点。
其他文献
<正>策划人语需要是产生活动的原动力,是个体活动积极性的源泉。需要一旦被意识到,就形成一种寻求满足的力量,驱使人朝着一定的对象去活动,以满足自身的需要。学习的需要是学
沙棘是民间传统草药,资源丰富。多资源、化学成分、药理作用方面综述了沙棘近三年来研究概况,供参考。
证券投资基金的绩效评估一直是学术界研究和探讨的焦点,基于期权定价思想的绩效评估模型在前人研究的基础上,增加交易成本条件,使模型更接近现实应用,改进期权执行价格的计算
美国和平队是1961年由约翰·肯尼迪总统发起建立的官方志愿者机构,在冷战的大背景下,其成立的初衷是通过向第三世界国家派遣教师、护士等技术人才帮助发展来展示美国的先进文
本试验取4份同量的酒精发酵后的赤霞珠葡萄酒样,3组分别添加4g/L不同烘烤程度(轻度、中度、重度烘烤)的法国橡木片,1组不加橡木片做对照。4℃条件下进行陈酿。陈酿期间每隔15
全面依法治国就是要在党的领导下治国理政,党必须受到监督和约束才能更好的为人民服务。如果缺乏了监督势必会产生腐败,损害党的廉洁性与先进性,阻碍法治中国的建设。因此,依
联盟型职教集团由若干独立法人按一定规则组织而成,属于非法人组织,其运行效率低下,管理运营方式存在两难选择.成立企业法人型职教集团,能整合职业教育资源和企业资源,能够更
基于高光谱图像的异常目标检测是当前研究的热点之一,目前已经产生了很多目标检测方法。这些算法大多仅利用了图像的低阶统计特征,因此难以实现目标的非线性检测。传统基于核
随着城市工商业的发展和人们生活水平的提高,城市电网对其供电能力和供电质量提出了非常高的要求,尤其是人口密集地区的大型城市电网受到了前所未有的挑战。柔性直流输电(VSC-H
针对农村初中英语学困生实际存在的现象,如何教育好这部分学生,是每一位一线的英语教师义务和责任。本文从自己教学实践入手,就农村初中英语学困生产生的原因进行调查分析并