基于深度学习的高维稀疏数据分类研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:simetl21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网大数据中蕴含着海量文本,如何有效地管理和利用这些数据是信息科学的研究热点。与此同时,随着高通量实验技术的不断进步,生物组学数据呈现爆炸性增长,基于组学数据的疾病特征分析成为生物医学研究的热点问题。文本和代谢组学数据虽然来源不同,却都有高维和稀疏的特点。传统机器学习方法在解决高维稀疏矩阵计算问题时,常会因维数灾难得不到令人满意的结果。本文提出了基于深度学习的高维稀疏数据分类方法,重点讨论了深度学习在文本和代谢组学数据分类上的应用。具体研究工作如下:(1)针对于高维稀疏文本数据,提出了一种深度置信网络(deep belief networks,DBN)和Softmax分类器相融合的文本分类方法。在该方法中,DBN用来对高维和稀疏文本数据降维,Softmax实现对降维数据的分类。在预训练过程中,DBN和Softmax分别完成各自的工作;在微调阶段,将二者作为一个整体,引入了L-BFGS(limited memory Broyden Fletcher Goldfarb Shanno)算法调整系统模型参数。在Reuters-21578和20-Newsgroup数据集上的实验表明,针对不同规模文本数据,本文提出的方法都能够在微调阶段收敛,且文本分类的效果要明显优于K近邻算法(K-Nearest Neighbor,KNN)和支持向量机(Support Vector Machine,SVM)算法。(2)针对具有高维稀疏和小样本特点的乳腺-Ⅰ号治疗乳腺增生的代谢组学数据,本文提出了一种融合dropout方法的DBN和Softmax分类模型。在模型训练过程中,首先利用无标签的数据完成DBN的预训练;然后利用有标签的数据,采用基于L-BFGS的算法完成了系统模型的微调,同时,为了尽量避免过拟合现象,在预训练和微调过程中引入了dropout方法。采用五倍交叉验证和不同规模数据集的实验结果表明,本文提出的分类方法优于KNN、SVM和BP算法,且分类结果比较稳定。(3)完成了基于堆栈自动编码器(Stacked Auto Encoder,SAE)和SVM的扩张型心肌病代谢组学数据的分类研究。由于扩张型心肌病代谢组学数据具有样本数量小、高维、稀疏以及非线性等特点,多隐层SAE具有非线性转换和很好的高阶特征表达能力,能够提取出代谢组学数据的复杂特征。实验结果表明,与KNN和BP模型相比,基于多隐层SAE和SVM的模型能够得到更好的分类结果。
其他文献
当前,我国借记卡已经发展成集存款、消费、结算、理财等功能于一体的新型支付工具,在个人支付领域占据重要地位。由于我国借记卡业务集中度较高,大型商业银行借记卡产品在银行卡
民俗美术和现代艺术设计都与人们的生活密切相关。前者虽然有很强的民族性和区域性,是一种典型的传统艺术形式,但是由于自身“俗”的特点以及来自外部文化的冲击而日渐衰微。而
近年来,各国商业银行在借记卡领域开展了一系列产品创新,从发行具有汇款功能的借记卡、开发借贷合一卡、增强账户的理财服务功能、整合移动支付功能、联名借记卡创新、定价方面
在信息时代背景下,媒体行业发生了不同程度上的变化,新媒体的强势崛起,对传统的广播电视媒体带来了强烈冲击。为了顺应时代发展要求,广播电视等传统媒体应该动态调整,在互联
主要探讨价值工程理论在房地产项目全寿命周期的应用,分别从项目可行性研究、设计、施工各阶段分析了价值工程理论的在房地产项目中的应用,以通过应用价值理论来提高开发商的
根据国家标准GB1105 1-87《内燃机台架性能试验方法标准环境状况及功率、燃油消耗率和机油消耗率的规定》中的等过量空气法,结合内燃机典型变工况解析式及单压过热蒸汽余热锅
城市是现代文明的集中体现,是市民物质和精神生活的家园,彰显着一个地区的发展活力和竞争力。习近平总书记在中央城市工作会议上指出,“做好城市工作,要顺应城市工作新形势、改革
报纸
随着我国科学技术的发展,关于苗木方面的栽培技术也越来越引起了人们的注意。人们希望通过发展苗木培育技术来提高我国的生态绿化面积。本文主要阐述了几种苗木的培育技术及
针对高等教育工科专业人才培养的历史及现状,分析了工科教育存在的普遍问题及产生的原因;根据河北工业大学机械制造及其自动化专业特点,围绕本专业综合改革试点的要求,提出“一线
武汉第九座长江大桥——黄家湖长江公路大桥将于10月动工开建,预计2015年建成。武汉市政府26日与中国交通建设集团签订了投资协议。