基于邻域粗糙集的肿瘤基因表达谱数据分析

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:zl168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于肿瘤不同的亚型的精确识别对于良性肿瘤的预防和癌症的治疗都非常关键,肿瘤不同的亚型分类研究获取了重大的关注度,而肿瘤基因表达谱数据为研究提供了重要的资源。针对基因表达谱数据中包含的特征,目前出现了多种信息基因选取的方法。邻域粗糙集理论在各个应用领域的日益成熟,为分析这类数据提供了另一种有用的研究工具。在邻域互信息信息基因选择算法及扩展的邻域条件互信息信息基因选择算法中,计算基因属性与决策属性之间的互信息值是复杂的。根据每个基因属性计算出的互信息值对基因进行排序,选取前K个基因,设定一个合适的判别函数进行降维处理。整个过程的计算量大时间长,而且选取合适的K值需要多次实验测试。针对这些考虑,本文提出了邻域粗糙集属性分类效率算法(NRSACE)。一般可知对于肿瘤分类来说有效的基因数目并不多,分类效率太低的基因我们可以设置最低分类效率控制值对其进行直接删除,基于这些想法,NRSACE算法直接计算基因属性的分类效率,对基因边排序边选择,获取所需的相对约简信息基因集。最后采用支持向量机分类器和K最近邻分类器对选取的信息基因集的分类能力进行验证,说明本文提出的邻域粗糙集属性分类效率信息基因选择算法的有效性。本文选了4组通用的肿瘤基因表达谱数据对提出的NRSACE算法进行了实验分析,4组数据分别是DLBCL、Leukemia1、Leukemia2和SRBCT肿瘤基因表达谱数据。数据实验分析结果显示,根据调节模型邻域参数δ的取值,4类肿瘤亚型的分类精度的平均值都可达到百分之九十八以上,而且实验分类精度的波动范围很小。SRBCT数据集的分析结果显示其平均分类准确率提高接近14%。本文对模型的稳健性进行了测试,随机删除原始数据集中5%的样本数,对剩余样本利用NRSACE算法进行分析,选取的信息基因集的元素个数协同选择的基因集具体元素相差不大,同时平均分类准确率相对稳定。所有分析表明,我们的研究具有一定的意义。
其他文献
以普通油茶、小果油茶、浙江红花油茶、攸县油茶为试材,利用Li-Cor6400XT便携式光合作用系统测定了不同物种油茶秋季光合作用日变化及光响应曲线.结果表明:4种油茶秋季的净光
大樱桃自花结实率低,又容易受树体营养、授粉受精、病虫危害、外界环境等因素的影响而导致坐果少、产量低,通过对临邑县樱桃园进行实地调研,总结出了提高樱桃坐果率的8项技术
背景和目的:喉癌是头颈部常见的恶性肿瘤,影响喉癌预后因素是多方面的,真正的影响预后的因素尚不明确。恶性肿瘤对缺氧的耐受性和高能量的需求是实体肿瘤发生、发展和转移过程
随着软件技术、互联网技术以及金融管理技术的快速发展,金融领域的管理工具需要不断的更新和优化,尤其需要借助高效的软件系统提升管理效率和效能。某国有金融集团在其金服公
采用探索性空间数据分析(ESDA)方法中的全局空间自相关和局部空间自相关分析技术,结合经济地理学与空间经济学等相关经济理论,实证分析直辖以来重庆市区县经济的空间结构及其
目的:脑膜转移癌(Leptomeningeal Metastases,LM)是一种侵及柔脑膜及蛛网膜下腔脑脊液的中枢神经系统转移癌,随着肿瘤治疗的进步,患者生存期延长,以及诊断技术的提高,LM的发
机构投资者通过集中化的控股权干预,使股东大会、董事会和公司经理层之间建立一种相互依赖、相互制约的机制,弥补了股权结构不合理、大股东控制的缺陷,在一定程度上缓解了"内
帕金森病(Parkinson's disease,PD)是第二大常见的神经系统退行性疾病,男性多于女性,患病率随着年龄增长而逐渐升高,我国65岁以上人群发病率为1.7%^[1]。PD是遗传易感、
以6061铝合金复合气瓶内胆的固溶处理为例,分析其冷却过程,指导优化固溶处理工艺,并对瓶体的物理检测提出建议。