基于粗糙集和神经网络集成的基因表达谱分类研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:ninetails
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的实施和顺利完成,产生出了海量的生物数据,有待于人们利用各种方法、从不同角度对其进行分析和解释,以获得对生命现象更加深入的理解和认识。生物信息学的出现和发展为人们利用信息科学的理论和方法对这些数据进行理解和分析、挖掘其中隐含的信息和知识提供了一种有效的研究手段。生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。随着生物信息学的兴起,基因芯片技术的研究已经得到越来越多研究者的重视。应用基因表达谱数据对癌症进行基因挖掘、分类与诊断,已经逐渐成为生物信息学领域的研究热点之一。  基因芯片技术的产生和应用为生物信息学的发展提供了极大动力。利用基因芯片能同时对大量的遗传信息进行高效、快速的检测、分析,因而被广泛的应用于医学尤其是癌症的分类诊断和预测、病因与发病机制分析、肿瘤药物筛选等研究方面。芯片技术的发展带来了生物信息数据的爆炸式增长,如何选择合适的方法处理芯片检测产生的海量数据,挖掘其背后隐藏的生物信息成为癌症研究的当务之急。利用基因表达谱在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文将数据挖掘技术应用于基因表达谱分类分析领域,对特征提取和选择技术以及分类器的选择和改进进行了研究,取得如下研究成果:  (1)为提高特征基因选择的有效性,结合Relief算法和粗糙集的优点,提出了基于邻域粗糙集的特征基因选取方法。用于选取数目较少且分类能力较强的特征基因。为寻找对疾病有鉴别意义的特征基因排除了大量无关基因的干扰,使得选择出来的特征基因可以更有效地用来对疾病进行诊断。  (2)针对分类中分类器的选取问题,本文提出基于Bagging的概率神经网络集成分类方法。实验结果表明,该方法能够有效地降低分类误差,提高分类准确率,具有较好的泛化能力以及较快的执行速度。  (3)针对癌症基因表达谱结构维数高而样本小、噪声冗余多而信息基因少的特点,提出一种用于癌症分类的基于邻域粗糙集和概率神经网络集成的分类方法。首先利用Relief算法对基因进行排序,然后利用邻域粗糙集选取分类特征基因,最后结合概率神经网络集成分类模型进行癌症分类。在结肠癌、胃癌和卵巢癌数据集上的实验结果表明,该方法可以快速有效地选取癌症特征基因,并能获得较好的分类效果。  本文最后列出了目前癌症分类研究存在的一些问题以及今后需进一步开展的研究工作。
其他文献
无线传感器网络作为一种新的网络模式能够实时监测和采集网络分布区域内受测对象的信息,在现代社会生活中具有广阔的应用前景。任何一种技术,只有可以实际应用才具有价值,而
医学图像分割是医学图像处理、分析和理解的关键技术,其分割结果为后续的医学图像配准及三维重建提供基础数据集,近年来大量的学者都对医学图像分割的研究与应用给予了高度重视
随着以智能体技术为依托的产品在教育、医疗、娱乐、交通和通信等领域得到越来越广泛的应用,人类对智能体本身的可交互性提出了更高的要求。和谐的人机交互体验对于加速智能
随着移动通信网络的蓬勃发展和飞速建设,网规网优逐渐成为移动通信网中最关键的技术之一,关系着整个移动通信网运营的成败和网络质量,与网络运营商利润的增长有着密切关系。
语音信号处理中,线性预测分析技术广泛应用于综合滤波器、感觉加权滤波器以及对数增益滤波器,并且发挥着极其重要的作用。本文以提高编码算法的合成语音质量为目的对G728算法进
在软件开发的后期进行软件性能检查是通常的工业惯例,但是这种后来进行的改善往往会导致使用比预期使用更多昂贵的硬件设备或使用过多的时间进行设备更换;更有甚者由于软件性
温室环境控制是作物监测的内容之一,对于其品质、产量等具有重要意义。合理控制温室设备,使温室内的环境参数更好的满足作物生长是目前温室环境控制需要解决的重要问题。为了
随着计算机技术的发展,产品设计逐渐从传统的平面设计转向三维立体空间中的实体模型设计。传统的木线加工是靠手工雕刻加工,手工制作精细,随意性大,但是在样式、产量等方面不
自从1903年,美国莱特兄弟驾驶自制飞机试飞成功以来,世界航空业已走过了百余年的历程。与飞机刚诞生时相比,现在的飞机无论是在种类还是性能上都发生了翻天覆地的变化。作为当今
随着社会全面信息化和计算机的普及,软件产业的发展已经成为国民经济发展的重要组成部分。软件的开发方式也逐渐朝着规模化、产业化和工具化的方法转变,而软件风险是项目开发过