论文部分内容阅读
随着社会经济水平的不断发展和人民生活品质的提升,鱼类及其制品因其具有丰富的营养和鲜美的味道,日益受到消费者的喜爱。但是鱼类也是八类食物过敏原中的一类,而在因食用鱼类导致的食物过敏反应主要是由小清蛋白构成的。目前已有的一些检测方法,例如PCR、质谱、ELISA等,均存在着诸如费用昂贵、耗时、缺乏广谱性等缺点。因此,一种能够快速、准确、全面检测小清蛋白的方法有着重要的意义。多分子振动光谱可以对复杂体系的混合样本进行快速、无损以及多成份同时检测,不仅能够获取样本的整体信息轮廓,也可以得到样本的空间构型信息,目前该方法以及在食品、材料、中药等领域得到了广泛的应用,本研究使用的中红外光谱也是一种多分子振动光谱。通过三氯乙酸(TCA)沉淀的方法提取纯化小清蛋白,然后分别收集16种鱼类的小清蛋白,其粗蛋白,以及不含小清蛋白的粗蛋白分成A、B、C三组,并采集其红外光谱,将原始谱图与其二阶导数谱图经矢量化处理后,通过多种算法支持向量机(SVM),随机森林(RF),神经网络(IRN)建立小清蛋白的识别模型,完成了小清蛋白的定性检测,利用定性检测所得的特征信息构建定量模型,最后将以上所有数据整合到数据库,构建成小清蛋白红外数据库,其详细信息如下:1.小清蛋白具有Ca2+结合位点属于EF家族,该结构对酸具有耐受性,因经过多次TCA沉淀,所得的小清蛋白的电泳条带呈现出明显的一条带,且所得小清蛋白与报道过的EG8抗体发生了特异性免疫反应。2.利用鱼类的小清蛋白,其粗蛋白,以及不含小清蛋白的粗蛋白的红外光谱这三个样本组,每个中有136个样本,每个样本有12条重复,该数据集按3:7分为训练集和测试集。对SVM、RF、IRN三种模型进行训练,模型参数经优化后分别为:SVM采用高斯核函数,惩罚因子为5,步长为1;RF模型的决策树数目为60,每棵树的最大深度为8;IRN模型有9层构成,隐藏层采用Inception-Resnet-V2的结构,dropout取0.75,softmax采用logits。三种模型在测试集样本上的准确率分别为,在组的水平上(A、B、C)三个模型的准确率为IRN(92.5%,85%,95%),SVM(75%,85%,75%),RF(60%,75%,85%),在总体水平上三个模型的准确率为IRN(97.3%),SVM(83.3%),RF(93.3%)。综合来看,IRN模型是最优的。3.小清蛋白的共有序列有blast-p可知主要由Asp,Ser,Glu和Asn构成,对比这四种氨基酸残基的红外特征吸收有三种模型的得出的小清蛋白特征光谱区,可以看出IRN模型对于小清蛋白特征提取比例是要高于其他两种模型的,这样它们的内部验证结果相一致。同时,所得特征区域为1644,1543,1265,1240,1155,1051,1010±5cm-1,在不同组样本的二阶导数光谱的这些区域均发现其峰强存在差异。在鱼糜中加入不同含量的小清蛋白制成用于模型外部验证的样本集,对三个模型的验证结果为,IRN(91%)>RF(70%)>SVM(35%),IRN模型对于小清蛋白的检测限为0.10.3mg/kg。4.利用红外光谱定量的方法建立了鱼糜中小清蛋白含量的定量预测模型。其中用于模型构建的校正组的小清蛋白含量分别为每100g鱼糜中有0,5,10,20,30,40,50和60mg,以定性模型所得特征峰和小清蛋白含量之间的线性关系为依据构建模型,所得模型的R2>0.99,标准偏差为2.75。然后,利用小清蛋白含量为5,15,25和35mg的样本对模型进行外部验证,并对预测值和真实值进行了t检验,结果表明,当小清蛋白含量>0.25mg,显著性P值大于0.05,表明此时模型是可以准确预测小清蛋白的含量。5.整合16种鱼类的基本信息,以及其相应过敏原小清蛋白红外光谱的原始与二阶导数谱图,将所有数据存放于MySQL数据库,利用Django构建数据库的可视框架以相关查询接口,将所有文件存储到云服务器,为服务器绑定域名www.guominyuan.online。最终,得到一个开放的小清蛋白过敏原数据库。