基于深度学习的高维稀疏数据分类研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户：simetl21

【摘要】

：

互联网大数据中蕴含着海量文本,如何有效地管理和利用这些数据是信息科学的研究热点。与此同时,随着高通量实验技术的不断进步,生物组学数据呈现爆炸性增长,基于组学数据的疾

【作者】

：

姜明洋

【出处】

：

吉林大学

【发表日期】

：

2004年期

【关键词】

：

深度置信网络堆栈自编码器文本数据代谢组学数据高维稀疏

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网大数据中蕴含着海量文本,如何有效地管理和利用这些数据是信息科学的研究热点。与此同时,随着高通量实验技术的不断进步,生物组学数据呈现爆炸性增长,基于组学数据的疾病特征分析成为生物医学研究的热点问题。文本和代谢组学数据虽然来源不同,却都有高维和稀疏的特点。传统机器学习方法在解决高维稀疏矩阵计算问题时,常会因维数灾难得不到令人满意的结果。本文提出了基于深度学习的高维稀疏数据分类方法,重点讨论了深度学习在文本和代谢组学数据分类上的应用。具体研究工作如下:(1)针对于高维稀疏文本数据,提出了一种深度置信网络(deep belief networks,DBN)和Softmax分类器相融合的文本分类方法。在该方法中,DBN用来对高维和稀疏文本数据降维,Softmax实现对降维数据的分类。在预训练过程中,DBN和Softmax分别完成各自的工作;在微调阶段,将二者作为一个整体,引入了L-BFGS(limited memory Broyden Fletcher Goldfarb Shanno)算法调整系统模型参数。在Reuters-21578和20-Newsgroup数据集上的实验表明,针对不同规模文本数据,本文提出的方法都能够在微调阶段收敛,且文本分类的效果要明显优于K近邻算法(K-Nearest Neighbor,KNN)和支持向量机(Support Vector Machine,SVM)算法。(2)针对具有高维稀疏和小样本特点的乳腺-Ⅰ号治疗乳腺增生的代谢组学数据,本文提出了一种融合dropout方法的DBN和Softmax分类模型。在模型训练过程中,首先利用无标签的数据完成DBN的预训练;然后利用有标签的数据,采用基于L-BFGS的算法完成了系统模型的微调,同时,为了尽量避免过拟合现象,在预训练和微调过程中引入了dropout方法。采用五倍交叉验证和不同规模数据集的实验结果表明,本文提出的分类方法优于KNN、SVM和BP算法,且分类结果比较稳定。(3)完成了基于堆栈自动编码器(Stacked Auto Encoder,SAE)和SVM的扩张型心肌病代谢组学数据的分类研究。由于扩张型心肌病代谢组学数据具有样本数量小、高维、稀疏以及非线性等特点,多隐层SAE具有非线性转换和很好的高阶特征表达能力,能够提取出代谢组学数据的复杂特征。实验结果表明,与KNN和BP模型相比,基于多隐层SAE和SVM的模型能够得到更好的分类结果。

其他文献

大型商业银行借记卡发展策略探究

当前，我国借记卡已经发展成集存款、消费、结算、理财等功能于一体的新型支付工具，在个人支付领域占据重要地位。由于我国借记卡业务集中度较高，大型商业银行借记卡产品在银行卡

期刊

银行借记卡银行卡产业大型商业策略探究

双赢的结合——论民俗美术与中国现代艺术设计的本土化

民俗美术和现代艺术设计都与人们的生活密切相关。前者虽然有很强的民族性和区域性，是一种典型的传统艺术形式，但是由于自身“俗”的特点以及来自外部文化的冲击而日渐衰微。而

期刊

民俗美术现代艺术设计

借记卡业务创新趋势研究及启示

近年来，各国商业银行在借记卡领域开展了一系列产品创新，从发行具有汇款功能的借记卡、开发借贷合一卡、增强账户的理财服务功能、整合移动支付功能、联名借记卡创新、定价方面

期刊

借记卡移动支付产品创新持卡人联名卡

互联网思维下广播电视媒体融合发展探讨

在信息时代背景下,媒体行业发生了不同程度上的变化,新媒体的强势崛起,对传统的广播电视媒体带来了强烈冲击。为了顺应时代发展要求,广播电视等传统媒体应该动态调整,在互联

期刊

互联网思维广播电视融媒体

价值工程理论在房地产项目全寿命周期的应用探讨

主要探讨价值工程理论在房地产项目全寿命周期的应用,分别从项目可行性研究、设计、施工各阶段分析了价值工程理论的在房地产项目中的应用,以通过应用价值理论来提高开发商的

期刊

价值工程全寿命周期房地产项目

大气环境对内燃机热电联供系统性能的影响

根据国家标准GB1105 1-87《内燃机台架性能试验方法标准环境状况及功率、燃油消耗率和机油消耗率的规定》中的等过量空气法,结合内燃机典型变工况解析式及单压过热蒸汽余热锅

期刊

变工况内燃机热电联供大气环境余热锅炉

坚持人民至上创造城市美好生活

城市是现代文明的集中体现，是市民物质和精神生活的家园，彰显着一个地区的发展活力和竞争力。习近平总书记在中央城市工作会议上指出，“做好城市工作，要顺应城市工作新形势、改革

报纸

我国苗木培育技术进展

随着我国科学技术的发展,关于苗木方面的栽培技术也越来越引起了人们的注意。人们希望通过发展苗木培育技术来提高我国的生态绿化面积。本文主要阐述了几种苗木的培育技术及

期刊

苗木培育技术进展

高等教育工科专业创新人才培养体系改革研究——以河北工业大学机械设计制造及其自动化专业综合教学改革为例

针对高等教育工科专业人才培养的历史及现状，分析了工科教育存在的普遍问题及产生的原因；根据河北工业大学机械制造及其自动化专业特点，围绕本专业综合改革试点的要求，提出“一线

期刊

高校教育改革创新人才培养工科教学

武汉10月开建第九座长江大桥

武汉第九座长江大桥——黄家湖长江公路大桥将于10月动工开建,预计2015年建成。武汉市政府26日与中国交通建设集团签订了投资协议。

期刊

长江大桥长江公路大桥武汉市

基于深度学习的高维稀疏数据分类研究与应用

与本文相关的学术论文