论文部分内容阅读
拉曼光谱可以提供丰富的样品分子结构信息,是科研以及工业中应用广泛的光谱技术。近年来拉曼光谱数据分析技术的快速发展,使得拉曼光谱得到了更加充分的利用。然而当前基于拉曼光谱的物质识别问题的前沿研究大多是针对二分类或者三分类等类别数较少的任务,在多分类问题上还存在挑战。另外,对于引入了深度学习技术的拉曼光谱多分类研究,目前的研究仅涉及到大规模的拉曼标准数据库。但往往在实际工作中,研究工作者能获得的拉曼数据是有限的,难以获取分类模型所需要的大量数据。因此,深入研究基于拉曼光谱的多分类任务并解决实际应用中光谱数据不足的问题是急迫且重要的。本论文的研究工作分为两部分,一是利用机器学习算法研究基于RRUFF矿石拉曼数据库的多分类问题,探索该问题上的最佳解决方案;二是结合迁移学习和深度学习技术研究小规模拉曼数据的复杂分类任务,解决实验难以获得庞大拉曼数据量以训练模型的难题,从而真正实现将机器学习技术应用在实际研究工作中。具体研究内容以及结论如下:1.将机器学习模型用在RRUFF矿石拉曼数据库的分类任务上,构建六种机器学习模型(支持向量机、随机森林、K-近邻、全连接深度神经网络、卷积神经网络和循环神经网络)用以比较各模型在该任务上的表现,然后对效果最优的模型做进一步地优化。结果显示我们构建的循环神经网络(RNN)在拉曼光谱的多分类问题上的表现显著超越了文献报道的在此问题上效果最优的卷积神经网络(CNN),将任务的分类准确率提升了 5.8%,并且我们发现1-范数正则化(L1)相比2-范数正则化(L2)更加契合光谱数据特性,引入L1和数据增强(Data Augmentation)可以将模型的分类准确率进一步提升2.3%。2.将迁移学习模型用于实验拉曼数据的复杂分类任务上,搭建两种不同的迁移学习模型:基于全连接神经网络(DNN)的迁移学习和基于CNN的迁移学习用以验证迁移学习能对模型产生的提升效果。实验结果显示我们构建的迁移学习模型在该任务上的效果显著,相比于非迁移模型,分类准确率有4.1%的提升。并且我们发现,不仅是利用与目标数据集相似的标准数据库的预训练能对模型带来效果的提升,利用与我们实验拉曼光谱数据相似度不高的矿石拉曼数据库进行预训练也能提升模型的分类准确率,这种模型对源数据集多样化的接受度使得迁移学习的可应用场景可以进一步拓宽。