基于基因表达谱的肿瘤亚型发现研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:dark709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于基因表达谱,在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文针对肿瘤亚型发现问题,以三种肿瘤(急性白血病,结肠癌,上皮细胞卵巢癌)基因表达谱为研究对象,从系统科学和信息科学的角度,采用模式识别和计算机相关技术,就肿瘤的亚型发现问题,基于基因表达数据进行了研究,取得如下研究成果: 第一,针对肿瘤聚类信息的度量指标——信息系数的研究 本文使用了用于肿瘤信息基因选取的信息系数指标,用以衡量基因包含的分类信息多少。与以往信噪比指标不同的是,本文以基因表达谱中每一个基因的均值与其方差的比值来定义信息系数,将所有基因的信息系数组成一个信息系数矩阵,以此为基础,求出信息系数的阈值,进行基因的第一次筛选。 第二,针对推定肿瘤亚型发现方案的研究 本文建立了一种推定肿瘤亚型发现的模型,首次将信息系数与t检验相结合应用到肿瘤的亚型发现问题上。提出采用聚类算法对样本进行二聚类,在选定的显著性水平的条件下,进行t检验的分析,将没有显著性差异的基因去掉。在剩下的基因集合中,继续用聚类的算法进行二聚类,得到的结果再一次进行t检验。此过程反复迭代,直至得到一个稳定的亚型为止。 第三,针对肿瘤标准样本分型方案以及最佳样本分型方案的研究 本文提出了一种基于聚类算法的肿瘤标准样本分型方案,并且给出如何通过准样本分型方案确定最佳样本分型方案,从而完成肿瘤亚型发现的计算方法。 本文所述方案没有复杂的数学理论原理。将该模型应用到三种肿瘤(结肠癌,急性白血病,上皮细胞卵巢癌)基因表达谱数据上,实验结果如下:对于结肠癌的数据,分型的精度可以达到93.55%,之前,Xing的分型结果是91.94%,Alon的分型结果是90.32%;对于白血病的数据,分型精度可以达到94.73%,之前Golub的分型精度是89.47%;对于卵巢癌数据,得到的分型精度是100%,与实际情况完全一致。良好的分型结果表明了该模型的有效性和可行性。
其他文献
众所周知,电子邮件是互联网最重要、最普及的应用,大大方便了人们生活、工作和学习。但垃圾邮件问题也日益严峻,经过综合计算,垃圾邮件给中国的GDP每年造成的损失多达60.69亿人民
工作在复杂的海洋环境中的自主式水下机器人(AUV)必须对各种不可预见的势态做出准确的推理判断和快速反应,体系结构有效的关键在于最大限度的体现AUV的智能性和实时性。文中根
读过今年第四期《新闻战线》发表的孙友深同志的文章《新闻改革,难!》,颇有同感。文章提出的“新闻改革难,关键在于新闻体制的束缚,总编辑几乎没有自主权。”是一个大胆的、
小凉山少数民族诗群以文化自觉的写作方式营造了一种尽显地域特征的人类学语境.他们的诗歌内涵丰厚,或表现生命本源的象征寓意,或表现地域文化的原型意象,从审美层面体现文学的民俗学文化意义和诗歌的人类学价值.
从查舜对《穆斯林的儿女们》的重写不仅可以发现当代回族作家于多重文化纠葛中调试文学观、超越自我的精神之旅,也可以感受到回族文学文本融独特民族性、时代性于一体的文学价值之美.
能让人眼感受真实三维影象的立体显示器可以广泛应用于各种场合,包括工业领域、商业领域、医学领域、建筑和艺术领域等,在军事上有着尤其重要的应用价值。本文基于SynthaGram
频谱分析技术通过分析采集到的振动信号,来判断机械设备的运转状态,达到故障诊断的目的,但目前一般的频谱分析技术是基于单一的谱进行故障诊断分析,虽然此类故障诊断分析技术有了一定的诊断准确率,但不是很高。在旋转机械轴承的故障诊断中大部分依靠经验模态分解方法,但在其分解过程中需要提前求出数据函数的极值点,并且保证完整提取出极值点信号,这限制了经验模态分解的应用。本文研究基于多频谱分析算法和GEMD的分析算
以文学的视野考察金代独特的谱牒文化形态可以获得对金代文学较为全面的认识。金初战争导致不少家族人口流散,谱系失序。而北方普遍强烈的家族意识又促使金代文人通过家传、
做了几年新闻工作,不久前又去兼编地方志,从中深切感受到新闻与方志有着许多相通和可以互用之处。编纂地方志的中心一环是收集资料,占有翔实的、系统的资料,才能编出一部具
随着生产控制朝着复杂网络控制方向的发展,控制设计人员已经不能只解决系统底层的实时控制问题,还需要解决上层生产工艺信息综合管理与优化问题。纺纱工艺具有流程多、参数复杂