基于化学分析与机器学习的铁观音茶叶品质评价体系

来源 :华侨大学 | 被引量 : 4次 | 上传用户:hewei83221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
铁观音是中国十大名茶之一,是福建省重要支柱产业。目前铁观音品质评价方法主要为评茶师的人工评价,易受主观因素影响,制约了铁观音茶叶品牌和产业的进一步发展。机器学习(ML)是人工智能的核心,在寻找共同性、区分差异性方面具有传统分类技术难以比拟的优势,在分析技术领域已取得了良好的应用。论文利用气相色谱(GC-MS)、液相色谱(HPLC)和近红外光谱(NIRS)检测技术对铁观音茶样的挥发性成分和甲醇可溶性成分进行检测、分析,再结合机器学习建立模型对铁观音等级品质进行评价。(1)采用GC-MS法对茶样中挥发性成分进行定性、定量分析,并利用余旋夹角、K值聚类、系统聚类和机器学习算法对挥发性特征成分进行分析和建模。结果表明:茶样中共检测出40种挥发性成分,其中不同产区茶样中含量较高的三种成分均为橙花叔醇、α-法尼烯、吲哚,其含量分别为28.8-35.0%、23.7-33.2%和8.4-11.2%;各产区的茶样中挥发性成分在种类和含量存在明显差异。利用余弦夹角法分析不同级别茶样的相似度,发现茶样中共有挥发性成分的相似度随着茶叶等级的降低而降低。数据预处理后,通过K-近邻分类算法(KNN)、自适应提升算法(Adaboost)、极端梯度提升算法(XGBoost)、随机森林算法(RF)、梯度提升树算法(GBDT)、支持向量机算法(SVM)六种机器学习算法对挥发性特征成分进行分析、建模,GCMS-XGBoost算法模型分级效果最优,平均精确率(mAP)为84.4%,确定系数(R~2)为0.800,曲线下面积(AUC)为0.782。GCMS-XGBoost算法模型精确率(84.4%)明显高于系统聚类分析(77.2%)和K值聚类分析(78.2%),具备可实际应用的分级精确率和可靠性。(2)利用HPLC法测定铁观音甲醇提取液中的表没食子儿茶素(EGC)、表儿茶素(EC)、咖啡因(Caffeine)、没食子儿茶素(GC)、茶氨酸(L-Theanine)、表没食子儿茶素没食子酸酯(EGCG)等10种代表性成分的含量,并利用主成分分析法和机器学习对液相特征成分进行分析和建模。结果表明:各等级茶样中EGCG、Caffeine和EGC三种成分含量均明显高于其它成分的含量;不同等级茶样中的EGC、EGCG、Caffeine、EC、GCG和ECG含量均存在三级>一级>二级的规律。HPLC数据经主成分分析法分级的结果与评茶师分级匹配度为83.51%-93.23%,mAP为87.9%,表明所选用的化学组分能够较好地对茶叶品质进行评价。HPLC数据经均值归一化(Norm)法预处理后分别输入XGBoost等六种机器学习算法,发现HPLC-XGBoost算法模型性能最优,模型的mAP为98.9%、R~2为0.963、AUC为0.905,模型ROC曲线和PR曲线优异。可见,HPLC-XGBoost模型精确率远高于经典的主成分分析法,可准确地评价铁观音质量等级。(3)用NIRS法对铁观音茶样进行检测,运用标准正态变量变换(SNV)预处理方法对数据进行预处理后,再分别进行自动编码器(AutoEcoder)、主成分分析(PCA)和多层自适应模块化神经网络(HAMNN)降维处理筛选最优的降维方法,最后采用XGBoost等六种机器学习算法建立铁观音近红外光谱-机器学习的品质评价模型。结果显示:六种预处理方法中,SNV法数据预处理效果最佳;HAMNN降维方案优于AutoEcoder和PCA;近红外光谱-机器学习法建模时,NIRS-XGBoost模型分级效果最佳,模型的mAP 95.2%,R~2为0.901,AUC值为0.925,模型ROC曲线和PR曲线优异。可见NIRS-XGBoost模型可以准确预测铁观音的等级品质。(4)GC-MS、HPLC和NIRS法检测结合机器学习算法所建立的铁观音品质评价模型相比较,虽然性能指标有一定的差异,但均能较好地评价铁观音的品质。其中,HPLC-XGBoost模型具有最高mAP(98.9%)和R~2(0.963),NIRS-XGBoost模型有较高的mAP(95.2%)和最高的AUC值(0.925)。HPLC-XGBoost和NIRS-XGBoost模型综合性能相当,各项指标均高于GC-MS法所构建模型。GC-MS和HPLC法检测每个样品分别为约250 min和200 min,耗时较长且HPLC法需引入有机溶剂,但可以获得决定茶叶品质的相应化学成分的有关信息,可实现茶样的定性、定量评价,这两者结合机器学习所建立的品质评价体系适用于茶叶生产工艺改进与科研的需要。NIRS法检测每个样品约40 min,耗时短且无需使用有机试剂,方便快捷,但检测结果为光谱数据,不能直接提供与茶叶品质相对应的化学成分信息。NIRS法结合机器学习所建立的评价方法准确、便捷,可满足生产和市场交易环节中快速评价的需要。
其他文献
详细考察了若丹明6G(R6G)和甲酚紫(CV)激光染料组成的二元乙醇溶液体系在532nm 光泵浦下的激光辐射,讨论并分析了在不同浓度配比情况下分子间能量转移和激光辐射规律。
本文利用准分子激光CVD技术以液态SnCl4和氧气为源制出了半径45μm的SnO2薄膜微透镜及微透射镜阵列。并从反应机制和生长规律出发对这一生长技术特点和前景进行了阐述。
2004年,青海省在全面取消农业特产税的同时,对“三江源”地区16县1乡的农牧业税全部实行免征。
环境问题是人类在21世纪生存和发展中面临的重大问题之一,也是人类共同关心和必须解决的首要问题.作为人工环境的城市,其质量与城市居民的物质和精神生活有着密切的关系.园林
系统地概述了近年涣散和射技术在血细胞计数及分类中应用的进展。介绍了多角度散射法、散射强度曲线法、两角度强度比值法、多向散射法、90°散射法,并对这些方法进行了评价
通过编制1套图形界面的模拟分析软件,对双程后向结构掺铒光纤超荧光光源有关输出功率、带宽和平均波长特性进行了理论模拟。结果表明,通过选取适当的掺铒光纤长度,总能实现光源
实验研究了调Q Nd:YAG激光器泵浦的增益开关型掺钛蓝宝石激光器的时间特性,泵浦能量水平(泵浦能量/阈值能量)变化范围为2.1 ̄3.8,腔长变化范围为20cm ̄60cm,并改变了腔的损耗。根据增益开关激光器时间特性的
据新疆维吾尔自治区气象中心高级工程师王慧介绍,2006年6月以来,南北疆均出现大面积持续干旱少雨天气,气温偏高。6-8月,北疆气温均高于正常年份,降水则比往年减少3成以上。
1病例资料收集自2012年以来某基层卫生单位诊断为前庭神经炎的患者52例.其中男性23例,女性29例;15-25岁16例,26-35岁24例,36-45岁10例,46岁以上2例;发病前有明显上呼吸道感染