论文部分内容阅读
癌症严重危害着人类健康,在世界范围内,乳腺癌是第二大癌症,自上世纪70年代末以来,全球乳腺癌发病率一直在上升,严重威胁着妇女的健康。目前,虽然在乳腺癌治疗和药物研究方面取得了一些成绩,但由于对这种复杂疾病的发病机制缺乏了解,目前还没有十分有效的治疗方法。近年来,随着免疫学,分子生物学和基因组学技术的发展,鉴定有价值的生物标记已成为当前研究的热点。在过去的20年中,全球基因表达谱已经成为复杂疾病研究的常用工具之一。例如,基因Pokemon通过调节Akt和ERK介导的细胞信号通路,加速肝细胞癌的发生与发展,异丙酚通过激活PI3K信号通路可以抑制癌细胞的转移。与基因差异表达分析相比,差异相关和差异共表达分析会对基因的变化有更深刻的认识。因此我们不应该仅仅考虑单个基因表达值的改变,应该从网络的角度,找到调控生命活动的关键基因。本文对乳腺癌的生物标记识别展开了研究,其主要成果和创新点总结如下:现有的生物标记识别方法有如下的一些缺陷,如基因表达数据的获取还依靠人工整理的方式,仅仅从基因表达值水平确定出差异基因,忽略了基因之间的调控作用,用WGCNA构建共表达网络之前对基因没有过滤过程,影响实验结果等问题。基于以上发现的问题,本文在识别乳腺癌生物标记时,提出了一个新的实验框架,将SAM算法和WGCNA算法进行了有效的融合。首先使用SAM算法筛选差异基因,并对筛选后的差异基因计算基因对之间的相关系数,利用差异网络的特性,筛选出在不同的实验条件下基因对之间的相互作用关系变化较大的基因,再将这些基因用WGCNA构建加权的基因共表达网络,从网络的层面对数据进行分析,将网络通过动态层次聚类,划分模块,再对每个模块进行生物分析,从而找到有生物意义的乳腺癌生物标记,最终我们得到20个基因组成的生物标记。本文所提出的实验框架不仅考虑了生物数据量大且噪声多的特点,也解决了WGCNA算法对输入数据的数量的要求,既减少了计算机内存的负担,节省了时间,又提高了构建模块的准确性和生物标记识别的精准性。针对于本文最终得到的乳腺癌生物标记,从生物学意义和分类器模型两个方面对其进行验证,结果显示这20个基因有良好的生物学意义,用这20个基因作为特征,在区分正常样本和患病样本时,准确率均高于已知的生物标记,这表明本文识别的生物标记是可靠的,同时该结果表明本文提出的基于共表达网络的乳腺癌生物标记算法是一种有效的复杂疾病识别算法。本文在最后设计并实现了一个乳腺癌生物标记识别系统,在windows7下采用B/S架构,利用R语言处理生物数据以及相关算法,通过java web技术将前端页面展示和后端的数据处理相联系,该系统的实现验证了理论研究的可行性。基因数据有很多属性可以考虑。因此,添加如基因注释数据,基因通路数据等更多更全面的因素,来构造动态共表达网络,以便于深入挖掘与乳腺癌相关的致病标记,将是今后研究的重点。