【摘 要】
:
生物信息学是近年来一门新型的热点研究学科。生物信息学中的基因表达数据具有高维度、高冗余和类别不平衡等特点,对于机器学习算法来说,这类数据集是一项困难的挑战。在机器
论文部分内容阅读
生物信息学是近年来一门新型的热点研究学科。生物信息学中的基因表达数据具有高维度、高冗余和类别不平衡等特点,对于机器学习算法来说,这类数据集是一项困难的挑战。在机器学习算法模型训练之前,对这类数据的降维处理是必不可少的过程。使用特征选择方法进行降维处理是一种有效的方法。对基因表达数据的特征选择及分类等问题的相关研究,能够为疾病的诊断和治疗提供可靠有效的研究方法。近些年许多学者对基因表达数据的特征选择问题进行了研究,并取得了很多有价值的成果,但是仍没有达到理想的分析效果,许多研究者依然致力于研究更好的基因表达数据特征选择算法。以往的研究均基于传统的静态特征选择算法,此类算法模型较为复杂,时间复杂度较高,已有学者将流特征选择技术应用在基因表达数据的特征选择问题上并取得较好的效果。针对基因表达数据的特点,本文对基因表达数据的特征选择问题进行了深入研究。本文结合在线学习的相关算法,建立强鲁棒性、易理解的特征选择模型,提出能够降低特征空间压缩率和提高分类识别率的流特征选择算法。本文将提出的基于L2,1范数的流特征选择算法在12个高维基因表达数据上进行了特征选择实验,并与其他四个典型的流特征选择算法进行了对比实验。实验结果表明,本文提出的算法在最优特征子集的分类识别率,特征空间压缩率和流场景下的算法稳定性方面具有一定优势。为处理基因表达数据的类别不平衡问题,本文通过结合改进的流特征SMOTE过采样算法,提出了不平衡数据的流特征选择算法,并在3个类别不平衡数据上进行了实验。实验结果表明,改进后的算法选择的子集在不损失整体分类识别能力的条件下提高了对少数类别样本的识别能力,能够更好的处理类别不平衡数据的流特征选择问题。
其他文献
文学总是其特定历史条件的造化。自上世纪90年代初开始至今的近二十年中国当代文学,由于生存土壤、知识结构、人生阅历和宽松环境诸方面因素的合力作用,许多作家奉献出一大批
美国福禄国际股份有限公司于1974年在美国西雅图成立,不但是将超高压水刀技术应用在工业用切割工具机上并商品化的企业,更发明了全球第1部加砂水刀系统。福禄公司已出货超过950
推动道德话语介入决策咨询机制。在国家治理现代化中,道德话语不仅要在社会舆论和评价上实现它的功能,而且要深度参与党和政府的决策咨询系统,让其发挥更大更好的作用,不仅要
选取了杭州市一幢实际的办公建筑,采用DEST软件建立模型,分析了在杭州地区考虑采光性能和在人员作息的影响下,办公建筑综合能耗随着窗墙比增大而变化的规律。结果发现,空调能
随着近年来出现的"电动汽车热"现象,电动汽车已经受到了广泛的关注。本文从整车工作原理方面着手,将电动汽车的基本构成及其电路原理进行介绍,使读者可以更能清晰明了地了解
2016年12月23日,北京舞蹈学院举办了“纪念彭松先生学术研讨会”。会议从“彭松先生关于舞蹈史学、舞蹈美学、舞谱的研究思想与成就;关于中国民族民间舞教材建设的研究与实践
<正>微信语音固然方便,但很多手机用户依然青睐拼音敲字。因此,输入法能否迅速准确识别你输入的内容就显得尤为重要了。那么,如何才能提升输入法敲字效率?无论是百度、搜狗还
在过去的二十几年中,微流控技术已经发展成为一门多学科交叉、用途广泛的一项技术。其中在癌症集成检测方面是其一个重要的应用方面。本文针对血液中的癌症标志物的集成检测
1教具创新点a.增加冷凝器和冷凝循环系统,使实验效果更佳。b.使用自制的“三灯”酒精灯加热,使实验速度加快(整个实验在5min以内完成)。2材料12号铁丝,易拉罐,玻璃管,竹筒,1.25L塑料饮料瓶,一次性
<正>随着《大气污染物综合排放标准》(GB16297-1996)已执行数年,其中条款已无法适应现在社会和环境的发展需求,人造板工业大气污染物排放控制的新要求正在酝酿制定中。目前我