论文部分内容阅读
互联网大数据中蕴含着海量文本,如何有效地管理和利用这些数据是信息科学的研究热点。与此同时,随着高通量实验技术的不断进步,生物组学数据呈现爆炸性增长,基于组学数据的疾病特征分析成为生物医学研究的热点问题。文本和代谢组学数据虽然来源不同,却都有高维和稀疏的特点。传统机器学习方法在解决高维稀疏矩阵计算问题时,常会因维数灾难得不到令人满意的结果。本文提出了基于深度学习的高维稀疏数据分类方法,重点讨论了深度学习在文本和代谢组学数据分类上的应用。具体研究工作如下:(1)针对于高维稀疏文本数据,提出了一种深度置信网络(deep belief networks,DBN)和Softmax分类器相融合的文本分类方法。在该方法中,DBN用来对高维和稀疏文本数据降维,Softmax实现对降维数据的分类。在预训练过程中,DBN和Softmax分别完成各自的工作;在微调阶段,将二者作为一个整体,引入了L-BFGS(limited memory Broyden Fletcher Goldfarb Shanno)算法调整系统模型参数。在Reuters-21578和20-Newsgroup数据集上的实验表明,针对不同规模文本数据,本文提出的方法都能够在微调阶段收敛,且文本分类的效果要明显优于K近邻算法(K-Nearest Neighbor,KNN)和支持向量机(Support Vector Machine,SVM)算法。(2)针对具有高维稀疏和小样本特点的乳腺-Ⅰ号治疗乳腺增生的代谢组学数据,本文提出了一种融合dropout方法的DBN和Softmax分类模型。在模型训练过程中,首先利用无标签的数据完成DBN的预训练;然后利用有标签的数据,采用基于L-BFGS的算法完成了系统模型的微调,同时,为了尽量避免过拟合现象,在预训练和微调过程中引入了dropout方法。采用五倍交叉验证和不同规模数据集的实验结果表明,本文提出的分类方法优于KNN、SVM和BP算法,且分类结果比较稳定。(3)完成了基于堆栈自动编码器(Stacked Auto Encoder,SAE)和SVM的扩张型心肌病代谢组学数据的分类研究。由于扩张型心肌病代谢组学数据具有样本数量小、高维、稀疏以及非线性等特点,多隐层SAE具有非线性转换和很好的高阶特征表达能力,能够提取出代谢组学数据的复杂特征。实验结果表明,与KNN和BP模型相比,基于多隐层SAE和SVM的模型能够得到更好的分类结果。