论文部分内容阅读
摘要:表面增强拉曼散射技术(SERS)是一种可以提供分子指纹信息的表征技术,具有快速、灵敏度高及检出限低等优势,已被广泛应用于食品分析领域。结构相似的分析物的SERS光谱重叠度较高,不宜用常规手段进行区分。以同类型色素为代表分析物,利用主成分分析(PCA)和BP神经网络相结合的方法,对高度重叠的SERS图谱数据进行分析,实现了同类型色素的SERS光谱区分。将归一化后累计贡献率达到90%的主成分进行BP网络训练和预测,结果发现,该法对不同色素预测的准确度高达99.87%,并且所呈现的结果与预计基本相同。
关键词: SERS;主成分分析;BP神经网络;色素判别;数据挖掘
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)31-0196-03
SERS Discrimination for Synthetic Pigment Based on PCA and BP Network Model
DUAN Ling-feng, XU Lu,WANG Li-dong*
(Qianjiang College, Hangzhou Normal University, Hangzhou 310018, China )
Abstract:Surface enhanced Raman scattering (SERS) has been widely used in biochemistry disease diagnosis and environmental monitoring, with the advantages of fast, sensitive, less material consumption and low detection limit. In the early detection of the pigment, we found that the overlap of the SERS spectra of the same type of pigment is high. In this paper, we employ Principal Component Analysis (PCA) and Back Propagation (BP) network to analyze the characteristic of the data and identify different spectra. Then, the normalized main component whose cumulative contribution reaches 90 % is trained and is predicted by BP network. The experimental results show that the accuracy for different pigments can achieve 99.87%. The results are basically the same as expected.
Key words:SERS;PCA;BP network;discrimination of pigment;data mining
1 概述
近年来,食品安全威胁到人类健康的问题频繁发生,引起了社会各界的高度关注。食品行业中,滥用添加剂、人工色素都极易引发人们的担忧。其中人工合成色素添加的不透明、不规范现象极为严重。据报道2013年北京市工商局查出在对北京市流通领域食品抽检中发现7个不合格样本,其中有两种肉制品被查出不得含有的色素“诱惑红”。
表面增强拉曼散射(Surface Enhanced Raman Scattering,简称SERS)技术由于具有灵敏度高、选择性好、费用低、试样量少、分析结果快速等优点,在生物、化学传感器、环境检测及食品分析[1-7]等方面都得到了广泛应用。由于不同分析物结构的差异性,理论上不同种类物质应具有各异的SERS特征。然而,由于有些分析物结构相似,其“指纹”信息差异小,谱线重叠严重,难以通过SERS光谱的直观对比进行区分,因此需要开发一种方法对高度重叠的SERS图谱进行分析判别。
在进行SERS检测时,获取的研究对象的特征峰属于“指纹区”,特征峰相对于其他的检测方法更为明显可靠,所以只需要在各个拉曼光谱中做谱线的归属以及峰强的比较就可以很好的区分出各种物质。但是,拉曼散射的形成是由于分子的振动,而同类物质的分子结构有可能很相似,所以产生的拉曼光谱就会很相似,用常规手段很难区分,再加之实验不可能达到理论完美,更加大了区分同类物质的难度。常见光谱分析判别方法主要是基于模式识别的光谱判别法,如最小二乘法支持向量机[8]、神经网络[9]等。在实践过程中,由于SERS信号维数过高,必须对原始数据进行降维、降噪的預处理。为了将高维数据简化,并保留其本身具有的特征,可以应用一定的模式识别方法,将数据简化的同时最大化体现其特征,提取出各物质主要信息,从而实现物质的区分。主成分分析法(Principal component analysis,PCA)是一种特征预处理的分析技术,可以提取一些对于结果有帮助的特征,从而降低模式识别的计算量[10]。此外,相对于最小二乘法支持向量机,BP神经网络学习速度相对更快,技术更为成熟,在拉曼光谱的应用中范围最广[11]。
基于上述分析,为了提高光谱的判别效率,将图谱主要特征提取出来,我们提出一种主成分分析与神经网络的SERS图谱判别模型(PCA-BP)。首先采用主成分分析提取SERS信号中的重要特征,再使用神经网络进行预测判别(图1)。将输出的值和预定值进行对比,得到的相似度以准确率的形式输出。
2 原理 2.1 主成分分析法——PCA
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,从而使用低维数的特征进行分类。
假设训练集为X=[x11…x1p???xn1…xnp]。
那么可以用如下方法进行标准化处理:
[x*ij=xij-xjVarxj i=1,2,…,n;j=1,2,…,p] (1)
其中,[xj=1ni=1nxij],
[Varxj=1n-1i=1n(xij-xj)2(j=1,2,…,p)]。
设原始数据初始化后的矩阵仍用X来表示,经处理后数据的相关系数矩阵R为
[R=r11…r1p???rp1…rpp] (2)
其中,
[rij=covxi,xj=k=1k=n(xi-xi)(xj-xj)n-1,n>1] (3)
[covxi,xj]为求[xi,xj]协方差。之后计算相关特征值和特征向量。假定特征值記为[λ1,λ2,…,λp],特征向量记为[ai=ai1,ai2,…,aip,i=1,2,…,p],那么主成分可以得到[p]个主成分,一般是根据各个主成分的贡献率大小取前k个主成分。
贡献率[=λii1pλi] (4)
在本文的具体实现上,根据标准化的SERS光谱数据,按照各个样品,分别输入主成分模型得到主成分。
2.2 BP神经网络
BP神经网络是一种采用比较多的前馈神经网络,一般使用三层的进行学习,即:输入层、隐含层、输出层。训练发现输入层的输入参数不宜过多,否则会导致训练时间过长,但同样也需要尽可能的包含全部的主成分信息。
本文采用神经网络的输入层的节点个数为18,隐含层节点个数为18,输出层节点为1(如图2所示),即输入18维特征量,输出1个预测值。激活函数采用[S]型函数。
[f(x)=11 exp(-x)] (5)
BP神经网络的阈值依据能量函数负梯度下降原理进行动态调整,该网络的具体流程如下图所示:
3 实验与模拟
3.1 材 料
无水乙醇(分析纯,国药集团化学试剂有限公司),氨水(分析纯,国药集团化学试剂有限公司);
苋菜红(国药集团化学试剂有限公司)诱惑红(国药集团化学试剂有限公司);
二次去离子水(先进激光材料与器件重点实验室,江苏师范大学)。
3.2 实验仪器
便携式拉曼光谱仪(BWS465,B
关键词: SERS;主成分分析;BP神经网络;色素判别;数据挖掘
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)31-0196-03
SERS Discrimination for Synthetic Pigment Based on PCA and BP Network Model
DUAN Ling-feng, XU Lu,WANG Li-dong*
(Qianjiang College, Hangzhou Normal University, Hangzhou 310018, China )
Abstract:Surface enhanced Raman scattering (SERS) has been widely used in biochemistry disease diagnosis and environmental monitoring, with the advantages of fast, sensitive, less material consumption and low detection limit. In the early detection of the pigment, we found that the overlap of the SERS spectra of the same type of pigment is high. In this paper, we employ Principal Component Analysis (PCA) and Back Propagation (BP) network to analyze the characteristic of the data and identify different spectra. Then, the normalized main component whose cumulative contribution reaches 90 % is trained and is predicted by BP network. The experimental results show that the accuracy for different pigments can achieve 99.87%. The results are basically the same as expected.
Key words:SERS;PCA;BP network;discrimination of pigment;data mining
1 概述
近年来,食品安全威胁到人类健康的问题频繁发生,引起了社会各界的高度关注。食品行业中,滥用添加剂、人工色素都极易引发人们的担忧。其中人工合成色素添加的不透明、不规范现象极为严重。据报道2013年北京市工商局查出在对北京市流通领域食品抽检中发现7个不合格样本,其中有两种肉制品被查出不得含有的色素“诱惑红”。
表面增强拉曼散射(Surface Enhanced Raman Scattering,简称SERS)技术由于具有灵敏度高、选择性好、费用低、试样量少、分析结果快速等优点,在生物、化学传感器、环境检测及食品分析[1-7]等方面都得到了广泛应用。由于不同分析物结构的差异性,理论上不同种类物质应具有各异的SERS特征。然而,由于有些分析物结构相似,其“指纹”信息差异小,谱线重叠严重,难以通过SERS光谱的直观对比进行区分,因此需要开发一种方法对高度重叠的SERS图谱进行分析判别。
在进行SERS检测时,获取的研究对象的特征峰属于“指纹区”,特征峰相对于其他的检测方法更为明显可靠,所以只需要在各个拉曼光谱中做谱线的归属以及峰强的比较就可以很好的区分出各种物质。但是,拉曼散射的形成是由于分子的振动,而同类物质的分子结构有可能很相似,所以产生的拉曼光谱就会很相似,用常规手段很难区分,再加之实验不可能达到理论完美,更加大了区分同类物质的难度。常见光谱分析判别方法主要是基于模式识别的光谱判别法,如最小二乘法支持向量机[8]、神经网络[9]等。在实践过程中,由于SERS信号维数过高,必须对原始数据进行降维、降噪的預处理。为了将高维数据简化,并保留其本身具有的特征,可以应用一定的模式识别方法,将数据简化的同时最大化体现其特征,提取出各物质主要信息,从而实现物质的区分。主成分分析法(Principal component analysis,PCA)是一种特征预处理的分析技术,可以提取一些对于结果有帮助的特征,从而降低模式识别的计算量[10]。此外,相对于最小二乘法支持向量机,BP神经网络学习速度相对更快,技术更为成熟,在拉曼光谱的应用中范围最广[11]。
基于上述分析,为了提高光谱的判别效率,将图谱主要特征提取出来,我们提出一种主成分分析与神经网络的SERS图谱判别模型(PCA-BP)。首先采用主成分分析提取SERS信号中的重要特征,再使用神经网络进行预测判别(图1)。将输出的值和预定值进行对比,得到的相似度以准确率的形式输出。
2 原理 2.1 主成分分析法——PCA
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,从而使用低维数的特征进行分类。
假设训练集为X=[x11…x1p???xn1…xnp]。
那么可以用如下方法进行标准化处理:
[x*ij=xij-xjVarxj i=1,2,…,n;j=1,2,…,p] (1)
其中,[xj=1ni=1nxij],
[Varxj=1n-1i=1n(xij-xj)2(j=1,2,…,p)]。
设原始数据初始化后的矩阵仍用X来表示,经处理后数据的相关系数矩阵R为
[R=r11…r1p???rp1…rpp] (2)
其中,
[rij=covxi,xj=k=1k=n(xi-xi)(xj-xj)n-1,n>1] (3)
[covxi,xj]为求[xi,xj]协方差。之后计算相关特征值和特征向量。假定特征值記为[λ1,λ2,…,λp],特征向量记为[ai=ai1,ai2,…,aip,i=1,2,…,p],那么主成分可以得到[p]个主成分,一般是根据各个主成分的贡献率大小取前k个主成分。
贡献率[=λii1pλi] (4)
在本文的具体实现上,根据标准化的SERS光谱数据,按照各个样品,分别输入主成分模型得到主成分。
2.2 BP神经网络
BP神经网络是一种采用比较多的前馈神经网络,一般使用三层的进行学习,即:输入层、隐含层、输出层。训练发现输入层的输入参数不宜过多,否则会导致训练时间过长,但同样也需要尽可能的包含全部的主成分信息。
本文采用神经网络的输入层的节点个数为18,隐含层节点个数为18,输出层节点为1(如图2所示),即输入18维特征量,输出1个预测值。激活函数采用[S]型函数。
[f(x)=11 exp(-x)] (5)
BP神经网络的阈值依据能量函数负梯度下降原理进行动态调整,该网络的具体流程如下图所示:
3 实验与模拟
3.1 材 料
无水乙醇(分析纯,国药集团化学试剂有限公司),氨水(分析纯,国药集团化学试剂有限公司);
苋菜红(国药集团化学试剂有限公司)诱惑红(国药集团化学试剂有限公司);
二次去离子水(先进激光材料与器件重点实验室,江苏师范大学)。
3.2 实验仪器
便携式拉曼光谱仪(BWS465,B