基于嵌入式稀疏特征选择策略的降维算法研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:wdxf365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量生物技术的发展产生了大量的高维小样本生物大数据。在生物医学“大数据”领域中,特征选择算法是解决维数灾难的有效方法之一,已被广泛应用于基因筛选、遗传位点分析等具体问题。本文首先概述性地介绍了特征选择算法及四种常用的分类器模型,然后围绕嵌入式稀疏特征选择策略的降维算法从以下两个方面展开论述:一是联合重抽样技术与嵌入式特征选择算法,构造了一种基于统计显著性水平的特征选择与排序算法,可以对遗传位点问题按等位基因可加效应和杂合效应模型编码的数据进行关键致病位点选择分析;二是结合特征排序算法和可固定用户自定义特征子集的算法构造了一种新的特征选择算法。针对生物遗传学中的遗传位点分析问题,本文给出了基于Lasso惩罚估计的Logistic回归模型以及基于重抽样技术的Lasso惩罚回归算法流程。在某疾病遗传位点编码数据上的实验分析中,列出了挑选的特征集以及在5-折交叉验证方式下四种分类器间分类性能的比较,同时我们还对排名前30的位点利用四种常用分类器进行了逐步增加特征个数的5-折交叉验证,发现可以在最少利用27个位点的条件下对疾病分类准确性达到最高68.13%。最后,我们还按等位基因可加效应和杂合效应两种编码方式下的数据进行了关键致病位点选择分析,并在GWAS研究数据库GWAS Central中对挑选出的特征进行了生物学意义分析,发现其被报道与肿瘤,高血压,肥胖等多种遗传复杂疾病有密切联系,从而进一步验证了结果的可信度。针对特征排序算法在基因表达谱数据中选取的特征子集容易产生冗余特征的问题,论文结合t检验排序法与SubLasso算法提出了一种特征选择算法。在与取排名靠前且特征个数相同的3个常见单特征排序算法比较时,新方法在15个常见基因表达谱数据集上分类表现占优;同时选出了具有非常好的分类性能的特征子集,在不同的分类器上取得了稳健的分类效果。新算法固定t检验排序法挑选出的特征作为预定义特征,可以将某些在特征排序算法中排名较低,但与响应变量统计显著相关的特征选择出来。
其他文献
对于X图性能的研究,通常是假定过程标准差已知,或者是在建立控制图之前,标准差能够被准确的估计出来.然而,在实际问题当中,这种假定并不总是能够成立.研究发现,X型图在过程标
近年来,随着消费级硬件的性能提高、高质量的深度传感器被植入移动设备和人工智能技术的迅速发展,3D人脸识别、人脸模型重建及AR/VR等人工智能产品逐渐在移动设备上得到应用,
高压的作用可以使物质存在的状态变得丰富多样,从而给材料带来许多新奇的物理和化学性质,这极大地拓宽了材料研究的方向和维度。在压力作用下,物质内原子之间会相互靠拢,可能
二次规划是一种以二次函数为目标函数,以线性函数为约束的极值问题,它是一种包含了线性规划的特殊形式的非线性规划。二次规划问题是一种典型的优化问题,与经济数学、管理科
Λ超子不受泡利不相容原理的影响能够到达母核的中心位置从而形成深束缚的Λ超核态。A超子加入原子核中时,由于超子-核子间的相互作用会使中心核的结构发生改变,同时超核性质
图论作为离散数学的一个分支,至今已有二百多年的历史.近年来,图论在科学界异常活跃,应用图论来解决计算机科学、生物学、化学等学科的问题已经显示出了很大的优越性.不含环
随着移动通信、电子信息技术的迅猛发展,毫米波通信技术凭借其优秀的带宽宽、波束窄、探测能力强等一系列优点,被越来越广泛熟知并进行深入研究和开发创新。但研究成果主要集
近年来,伴随自然生态的失衡、人为猎杀和环境污染等问题的频发,不仅导致了各生物种群濒临灭绝的困境,而且严重影响了社会生产、生活的发展节奏,因此,生态系统模型的研究备受
车载自组织网络(VANET)在智能交通中扮演着非常重要的角色,它利用车与车之间、车与行人之间、车与路边基础设施之间的通信将道路状况、车辆拥堵信息、泊车信息等实时传输到各
我国《行政许可法》第9条规定,“依法取得的行政许可,除法律、法规规定依照法定条件和程序可以转让的外,不得转让。”这一法律条文是关于行政许可是否可以转让的规定,包涵了