基于模糊邻域的肿瘤特征基因选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:jin_sarah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物医学方面,利用DNA微阵列技术可获取大量的基因表达谱数据,通过数据分析,构建有效的肿瘤分类模型,对肿瘤的临床诊断和治疗具有重要的研究意义和应用价值。现今已获得的基因表达谱数据可近似体现出生物组织细胞整个基因组的表达信息,但该数据的特点是高维数,小样本,并含有大量的噪声冗余,若不经处理则会影响诊断结果。因此,研究特征基因的精确刻画及其与肿瘤分类相关度的度量方法,从成千上万基因中有效地选出相关特征基因,是进行基因数据信息挖掘的核心问题,也是本研究的重点。在特征基因选择过程中,许多已存在的算法多注重对特征基因度量方法的选取和研究,而忽视了在数据处理时对原始信息的精确刻画。本研究通过分析和处理基因表达谱数据,利用粗糙集理论中的邻域概念和模糊概念,以不同方式引入条件熵构建相应的特征基因选择模型,结合特征基因子集重要性的代数定义和信息论定义,使得度量机制更加完善,改善传统基因选择方法的性能,以获得较优的特征基因子集。主要工作如下:(1)基因数据中多存在样本邻域不完全包含在其决策等价类中的数据,针对这类关键数据描述不够精确的问题,本文构建了模糊邻域条件熵模型。首先使用模糊邻域粒和模糊决策刻画基因表达谱数据,减少计算过程中数据原始信息的损失;然后基于所提模型给出了模糊邻域条件熵的定义,及其单调性等定理的证明,为了容忍数据中的噪声,本文设置并讨论了参数选择的重要性;最后通过所提模型的单调性原则来评估候选特征基因的重要性,从而获得有效的特征基因子集。通过实验对比验证,所提方法能有效剔除冗余噪声且可取得较好的肿瘤分类效果。(2)为改善在特征基因选择过程中的样本误分类问题,本文在工作(1)的基础上进行优化,进而提出了粗糙不确定性度量模型。首先结合粗糙集中的模糊相似关系和邻域半径构造了样本的模糊邻域粒,并利用样本间的模糊相似关系和决策等价类定义了粗糙决策;然后,将样本的模糊邻域粒和粗糙决策通过更具针对性的方式引入条件熵中提出了粗糙不确定性度量模型。由于允许数据中噪声冗余的存在,本文引入了变精度模型,并进行了参数的选取分析;最后,基于所提模型设计了一个特征基因选择算法进行有效基因的选择。经实验比较,该模型在选择基因的数目以及分类精确度上表现较优。
其他文献
含氮杂环化合物是一类数目庞大的有机化合物,它们结构多样,广泛存在于具有生物活性的天然产物、药物分子以及有机功能材料中,如维生素、生物碱、色素以及香料等。其中,N-氧化
近年来,随着信息化的快速发展,用户对计算资源的需求越来越高,传统计算机在计算能力、存储能力以及便利性等方面在一定程度上制约了现代化办公和应用。云计算为用户提供了无限计算和存储能力,用户可通过网络随时随地使用,更灵活的满足用户需求。拥有私有云的企业或研究机构,可借助公有云实现对计算资源的灵活扩展,应对突发的请求溢出和负载不均衡的情况。所以,混合云成为企业或研究机构部署云计算应用的首选。因此,如何将混
生长停滞和DNA损伤诱导45α(GADD45α)是应激诱导蛋白,在细胞存活、死亡、染色质组装、基因组稳定性和DNA损伤修复中具有重要的作用,GADD45α表达的蛋白通过MTK1/MEKK4激酶介
随着房产经济的发展,房价飞速上涨,住房成为大多数工薪阶层和低收入群体的一大困难,尤其是低收入老年人。想扎根大城市,申请公租房成为大多数没有住房且无购房能力老年人的选
聚乳酸(PLA)是目前环境友好高分子材料中最为重要的可生物降解聚合物之一,具有良好可生物降解性和生物相容性。然而,由于其较慢的结晶速率、较差的耐热性和较差抗紫外线性能
本文致力于研究带有时滞的分数阶微分不等式,并将其应用到分数阶时滞系统的稳定性理论的研究当中。本文分为以下四个部分:第一部分研究了线性常系数的分数阶时滞微分不等式,
随着语义网技术的飞速发展,RDF数据迅速增长,这给RDF数据的存储与传输带来了巨大的挑战。现存的通用压缩技术和RDF专用压缩技术可以在一定程度上解决该问题,但大规模数据中连接主语的谓词冗余仍未得到很好的解决,此外针对压缩数据的查询仍然存在数据压缩比率和数据查询效率相互制约的问题,二者性能的同时提升仍需进一步研究。本文针对连接主语的谓词冗余这种可被优化的数据冗余,提出基于差分编码的RDF分组压缩算法
霍乱是一种流行性的肠道感染疾病,人体感染后会引起剧烈的水样腹泻、脱水痉挛、甚至死亡等症状,该疾病传播快、病死率高,至今仍是发展中国家人民生命安全的巨大威胁。霍乱弧
我国致密油气资源十分丰富,已成为国内能源供应的重要组成部分。目前国内外针对裂缝性致密油气藏开发通常采用缝内暂堵转向压裂技术以形成复杂裂缝网络,沟通近井区域油气富集
非线性光学成像可以实现对样品的无标记和无接触的成像,同时又具有空间分辨率高、层析成像和穿透深度大等特点,凭借优异的特性使其在生物医学、生命科学、材料科学等领域研究