基因表达数据特征选择及样本不平衡性研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:kenshin578212121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因具有记录和传递遗传信息的重要作用,基因正确表达与否直接决定着生命的安全与健康。基因表达数据为我们研究由基因突变而导致的疾病提供了大量的数据信息,如何有效的利用基因表达数据进行疾病诊断及相关药物研究,成为医学、生物信息学、统计学等多学科交叉研究的重要课题。人体细胞通常具有成千上万个基因,降低特征维度就成为基因表达数据预处理阶段必不可少的步骤,特征选择能够有效挑选出代表数据集信息的特征,去除噪声的影响,并且能够减少后续样本分类的工作量。此外,在现有许多数据集中,存在样本的分布不平衡性,这也为分类造成了较大的难度。因此,针对基因表达数据,本文在特征选择、样本平衡及样本分类的方面做了进一步的研究工作,主要工作内容如下:(1)度量标准对于特征选择方法是十分重要的,不同的度量标准往往能够达到不同的效果。本文采用常见的三种不同的度量标准运用于快速相关过滤式(FCBF)算法,并利用K-临近、判别分析和随机森林进行分类以判断度量标准对FCBF算法的影响。结果表明,SU与HSU对特征子集的控制效果相似,但是在分类准确率上,SU更加的平稳,波动小。NSU在不同数据集上都能较好的控制特征子集数目并达到较高的分类准确率。(2)特征子集的数目一般情况下可以通过调节参数进行控制,由于FCBF算法本身不能控制特征子集数量,本文我们引入参数控制方法,通过参数来控制特征子集的数目,给出了带参数的FCBF算法。实验结果表明,过小或过大的特征子集都不利于样本分类,会降低分类准确度。在BREAST_A、COLON、MULTI_A三个数据集上,原始参数选择出的特征子集虽然去冗效果明.显,但是也会去掉很多有用信息。(3)本文提出一种基于样本均值距离的启发式过采样(SMOTE)改进算法,用以解决样本不平衡问题。重抽样时按照与样本均值距离从大到小依次在分位点处进行插值,避免了模糊边界的问题产生,同时对于降维前后抽样算法的结果进行了比对。实验结果表明,最优参数下进行的抽样实验不一定比原始参数的更优,而且,样本分布不平衡性较大的数据集利用前抽样效果最好,其余数据集则利用后抽样即可。(4)在样本分类实验中,本文提出了根据分类样本与训练集中各类样本均值的欧式距离进行分类的算法。实验表明,样本均值分类算法可以替代K-临近和判别分析分类器,在除BRAIN、MULTI_A、ALL_AML数据集上能够达到更优的分类。相对于已有的特征选择以及分类算法,本文提出的平衡样本均值及分类方法更加简便,且适用性较强,根据不同的数据特征和结果要求,可以随时变换选择标准,且在大部分数据集中能够表现出更优的分类效果。但是,特征选择是一个去冗余过程,平衡样本是一个增加过程,如何将这两个过程更好的结合起来,减少信息的损失,同时避免增加冗余信息和噪声,是本文需要进一步研究的问题。
其他文献
由于高技术产业需要多样化、复杂的知识和技术,企业自身的能力难以维持创新需求。因此,企业需要广泛的使用外部知识以保持持续的竞争优势,创新活动的形式也由线性模式转化成网络模式。网络化创新作为网络模式的创新新范式,可以高效的共享信息和互补技术以此提高企业的创新产出。因此,对创新网络的结构及其演化特征有初步的了解,有助于揭示技术主体间的关系。由于具有网络资源的网络位置得到广泛的使用,不同的企业在网络的连接
目的分析总结80例患者首次经内镜逆行胰胆管造影术(ERCP)中胆管插管操作,探讨茵陈蒿汤提高ERCP胆管插管成功率、减少胆管插管时间的可行性。方法选择河北北方学院附属第一医院消化内科2018年10月至2019年10月入院接受首次ERCP治疗的80例胆总管结石的患者。按照是否使用茵陈蒿汤治疗随机分为药物组和对照组。两组患者均根据指南予以常规术前治疗;药物组加用茵陈蒿汤,于术前5天开始每日口服1次。两
作为注册会计师行业的专业服务人员,审计人员时常遭受来自客户的诸如言语侵犯、不合理批评等不公平的行为,这种行为导致了审计人员的反生产行为普遍频繁。对于反生产行为的前
近年来,我国供应链金融迎来了迅猛的发展,根据相关数据显示,至2020年我国供应链金融的市场需求将超过14万亿元。与此同时,“互联网+产业”模式使互联网金融与传统产业相互交融,并通过供应链金融促进信息化与产业化的结合。第三方平台、商业银行、核心企业和物流企业等通过自身在供应链交易过程中积累的交易与信用数据,构建信用评估体系,为供应链中的中小微企业提供综合金融服务。第三方电商平台主导的供应链金融模式由
本文主要讨论了抛物问题分裂最小二乘混合有限元方法,通过全离散时间变量,列出了一阶分裂最小二乘混合有限元格式和Crank-Nicolson分裂最小二乘混合有限元格式,并证明了格式
TiO2-SnO2复合材料具有独特的性质和光催化等性能,是一种高效率,稳定且环保的绿色复合材料,在环境污染治理和可持续绿色能源发展等领域有着广泛的应用。本论文利用对羧基苯甲
社会的发展,对人才培养提出了新的要求。为了培养出合格的人才,顺利实施人才战略,我国实施了新课程改革。新课程改革要求课堂要从传统由教师主导的“一言堂”、“满堂灌”,学
随着科学技术的迅猛成长,社会网络分析成为了颇受关注的研究方向。链接预测是社会网络分析中的一个研究方向,依据当前的网络的结构和节点的属性对节点之间是否具有链接进行预
近年来,整体协调性行为的研究成为了复杂网络研究中的一个热点。本篇文章着重研究其中的有关复杂网络同步的问题。以下是本文的主要工作:第一章简要介绍了复杂网络的有关背景
近些年来,服务机器人技术的快速发展和进步,极大的方便了人们的生活和企业的生产。绝大多数服务机器人需要移动功能,因此解决机器人移动问题的路径规划技术是服务机器人的重