基于智能信息处理技术的肿瘤基因表达谱分析

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:nisshei5zd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用基因表达谱技术,人们可以在一次实验中同时获得组织样本中成千上万个基因的表达数据,为肿瘤学提供了一种全新的研究手段。如何从庞大的肿瘤基因表达谱数据中分析和挖掘出有用的信息和知识,更加全面的认识肿瘤的基因本质、获得对“肿瘤—基因”间关系的真实反映,推进肿瘤学的基础研究和肿瘤的临床诊断与治疗,是当前生物信息学和肿瘤学研究的重要课题。论文基于肿瘤基因表达谱数据,从研究样本的有效分类入手,利用分类特征选取技术,就肿瘤基因表达谱数据中分类特征规则的提取、肿瘤分类特征基因的鉴别和肿瘤特异表达基因的发现三个关键问题作为主要研究内容,以从不同角度揭示出可能的“肿瘤—基因”间的关系。在分析方法上,力求将计算智能的基本理论和方法同生物学知识有效结合,从而发展出一种分析和处理基因表达谱数据的有效方法。论文取得的主要研究成果如下: (1)以多发性骨髓瘤基因表达谱数据集作为具体的研究对象,提出了一种基于离散型基因表达谱数据的知识提取方法,得到了多发性骨髓瘤基因表达谱中蕴含的5条样本分类规则,并从生物学角度对其进行详细分析以阐明其生物学含义。这些分类知识的发现对多发性骨髓瘤的基因诊断、研究多发性骨髓瘤中特异的基因表达行为具有重要意义。在分析方法上,充分考虑了基因表达谱数据集样本少、维数高这一突出特点,针对已有归纳学习算法在处理小样本、高维数的样本学习问题时所出现的困难,通过首先计算属性的信息增益进行基因排序,然后基于神经网络进行属性规约,最后利用重采样技术形成决策树群、以综合统计指标对决策树进行性能评价的方法提取样本分类特征规则。上述方法可有效提高样本分类知识提取的准确性和鲁棒性,为肿瘤基因表达谱数据的分析提供了一种可用工具。 (2)从生物学分析入手、结合模式识别与机器学习技术重点研究了肿瘤分类特征基因选取问题。在滤除分类无关基因这一环节,充分结合生物样本数据统计分布的特点和模式识别的基础理论,提出了基因分类信息指数的概念,以全面衡量基因所含样本分类信息量。在冗余属性去除的问题上,从基因调控的基本形式出发,首先采用两两冗余分析进行强相关性冗余属性的去除,然后利用基于“属性子集评价”的特征搜索算法,从“功能基因组合”的角度出发进行分类特征基因集合的选取。在具体搜索算法的设计问题上,研究了基于概率可分性判据的浮动前向搜索算法和基于SVM分类模型灵敏度分析的后向搜索算法两种不同类型的属性选取方法,为肿瘤分类特征基因选取问题的实际求解提供了两种高效可行的算法。将上述方法应用于急性白血病的亚型识别与分类特征基因选取问题中,结果表明:同经典的研究成果相比,本文方法不仅将分类正确率提高到100%,同时利用前向、后向搜索算法分别得到了两组数量更少、更具样本分类能力的特征基因,为急性白血病亚型的准确诊断、功能芯片的设计提供了两组可用的基因标记。 (3)以Multi-Class肿瘤基因表达谱数据集作为分析基础,通过将不同类别的肿瘤组织视为一个统一的“肿瘤”类别,将对应的不同类型的正常组织作为一个统一的“正常”类别加以研究,以“肿瘤”与“正常”组织样本的有效分类为基础,利用分类特征选取技术就肿瘤特异表达基因的发现及其表达模式问题进行了分析和研究。找出了肿瘤特异表达的一组基因特征,并从信息学和统计学的角度对该组基因在肿瘤组织中特异表达的确实性和普遍性进行了全面论证,最后对其在肿瘤组织中特异的表达模式进行了分析探讨,总结了肿瘤基因表达上的特点,为人们深入认识肿瘤共同的基因表达特征、探究肿瘤发生与形成的分子机制提供了有益的参考和借鉴。在分类特征选取问题上,抛弃了从样本统计特征出发、基于属性可分性判据进行特征选取的分析方法,将基于实例的机器学习算法引入到该问题的研究中来,提出了RFERelief算法以有效获取样本的分类特征,并从理论和实验两方面证明了该算法的有效性。 论文研究课题得到了国家自然科学基金(No.60234020)支持。论文就肿瘤基因表达谱分析中一些关键环节和重要问题进行了深入研究,所做工作的核心是希望从信息学的角度分析和理解基因表达数据,以发现其中蕴含的信息和知识,并就肿瘤学研究中的某些问题进行分析和解答。所得科研成果对肿瘤的临床诊断和生物医学基础研究具有一定的参考和借鉴价值,突出了生物信息学为生物学提供线索和信息的核心功能。在方法学上强调机器学习方法同基因组学知识的结合,发展了一种具有生物信息学特色、适合于处理复杂生物数据的信息学方法,对肿瘤基因表达谱数据的分析和处理具有较强的参考和实用价值。
其他文献
微量和超微量作为现代科学技术一个重要的前沿问题,是人类探索认识微观世界的重要手段。本课题提出了一种通过将超微质量转换为超微位移来检测超微质量的新方法。 本论文
混合交通流包括机动车、非机动车和行人。这几种交通方式的特性之间存在着很大的差异,并且机动车驾驶员、骑车者和行人的行为也有明显的区别。混合交通流是中国城市交通的一个
汽车离合器是汽车传动系统中的主要部件之一,离合器工作状况的好坏直接影响到汽车整体性能,对离合器的检测至关重要。研究开发自动化程度较高的此类试验设备,对于提高产品质
近年来,随着我国太阳能光伏发电事业和铁路建设的迅速发展,太阳能光伏发电系统已作为铁路负荷备用电源广泛被应用。太阳能光伏电池的使用,减轻了铁路环网贯通的压力,达到了节约能源的目的。最大功率点跟踪控制器作为铁路光伏并网系统的重要组成部分得到了非常广泛的研究与应用。最大功率点跟踪控制算法的不断改进与研究,提高了太阳能光伏电池的利用效率,并在一定程度上提高了经济效益。论文对太阳能光伏并网系统的特性进行了分
在工、矿业应用中,有许多重载运输设备,比如皮带输送机、矿山刮板输送机等。这些设备一旦出现故障停车,再重新起动就比较困难。直接起动会产生很大的冲击电流,影响电动机的使用寿命;采用降压起动装置或常规软起动器起动又不能提供足够大的起动转矩,无法实现重载起动;而采用变频器起动投入成本又太大。针对这些矛盾,本文寻求了一种新的起动方案,即利用晶闸管斩波技术进行离散变频,以降压-降频的方式实现高起动转矩、低起动
保证生产的连续性,减少设备停机时间,是保证企业追求高经济效益的前提,而设备状态计算机实时监测与故障诊断技术将为此提供一个有效的解决途径。本文研究了小波分析在故障诊
目前,全世界的肺结核发病率正在逐渐上升,国内外的资料表明,肺结核病例一旦确诊,80%已经失去了及早治疗的好机会。早期诊断、早期治疗是提高肺结核患者生存率、降低死亡率的关键,因
针对汽温系统的大迟延、大惯性特性,提出了以下三种控制策略:1).提出了模糊自整定PID控制策略。粗调阶段基于发电机组负荷进行模糊预整定,基本适应运行工况的大范围变化,细调阶段基于系统的被调性能指标进行再整定,以进一步适应运行工况的小范围变化并克服各种可能的干扰。2).采用T-S模糊模型描述复杂被控对象,并把它作为系统的内部模型,然后对内部模型求逆,构成模糊内模控制器。3).提出了基于粒子群优化算法
近年来,随着自然生态环境遭到了严重的破坏,以及雾霾等多种自然灾害的频繁发生,给社会造成了巨大的人员伤亡和严重的经济损失,归咎其原因,碳排放量的增加难逃其责。日益增长
直接转矩控制(Direct Torque Control,DTC)系统利用空间矢量的分析方法,在定子坐标系下计算、控制交流电动机的磁链和转矩,直接跟踪定子磁链和转矩。借助于离散的两点式调节(Ban