论文部分内容阅读
高通量生物技术的发展产生了大量的高维小样本生物大数据。在生物医学“大数据”领域中,特征选择算法是解决维数灾难的有效方法之一,已被广泛应用于基因筛选、遗传位点分析等具体问题。本文首先概述性地介绍了特征选择算法及四种常用的分类器模型,然后围绕嵌入式稀疏特征选择策略的降维算法从以下两个方面展开论述:一是联合重抽样技术与嵌入式特征选择算法,构造了一种基于统计显著性水平的特征选择与排序算法,可以对遗传位点问题按等位基因可加效应和杂合效应模型编码的数据进行关键致病位点选择分析;二是结合特征排序算法和可固定用户自定义特征子集的算法构造了一种新的特征选择算法。针对生物遗传学中的遗传位点分析问题,本文给出了基于Lasso惩罚估计的Logistic回归模型以及基于重抽样技术的Lasso惩罚回归算法流程。在某疾病遗传位点编码数据上的实验分析中,列出了挑选的特征集以及在5-折交叉验证方式下四种分类器间分类性能的比较,同时我们还对排名前30的位点利用四种常用分类器进行了逐步增加特征个数的5-折交叉验证,发现可以在最少利用27个位点的条件下对疾病分类准确性达到最高68.13%。最后,我们还按等位基因可加效应和杂合效应两种编码方式下的数据进行了关键致病位点选择分析,并在GWAS研究数据库GWAS Central中对挑选出的特征进行了生物学意义分析,发现其被报道与肿瘤,高血压,肥胖等多种遗传复杂疾病有密切联系,从而进一步验证了结果的可信度。针对特征排序算法在基因表达谱数据中选取的特征子集容易产生冗余特征的问题,论文结合t检验排序法与SubLasso算法提出了一种特征选择算法。在与取排名靠前且特征个数相同的3个常见单特征排序算法比较时,新方法在15个常见基因表达谱数据集上分类表现占优;同时选出了具有非常好的分类性能的特征子集,在不同的分类器上取得了稳健的分类效果。新算法固定t检验排序法挑选出的特征作为预定义特征,可以将某些在特征排序算法中排名较低,但与响应变量统计显著相关的特征选择出来。