论文部分内容阅读
葡萄酒品质预测是葡萄酒生产过程中进行品质调优控制的重要过程。由于葡萄酒样本数据的品质类别多样性和非平衡性,导致传统的预测模型存在低品质类识别率低的问题。因此,研究一种准确快速的品质预测方法,可以有效提高低品质类的识别率,对于提高葡萄酒生产质量具有重要指导意义。 本文以UCI数据库中的“Wine Quality”数据集为研究对象,以葡萄酒品质与理化指标之间存在复杂的非线性关系为研究基础,采用多分类支持向量机(Support Vector Machine,SVM)算法和集成学习算法建立葡萄酒品质预测模型,以达到提升低品质类葡萄酒识别率的目标。主要工作为以下几个方面: (1)基于多分类支持向量机的葡萄酒品质预测方法的研究 针对葡萄酒品质数据类别多样性的特点,在传统多分类支持向量机的基础上,提出了一种改进的多分类支持向量机算法。该算法在训练过程中,优先选择样本数量最多的一类与剩余类之间构造“一对多”SVM,然后从剩下的类中选取一个次多类重复上述过程,直到剩余两类之间构造“一对一”SVM。与传统的多分类支持向量机相比,不仅减少了一对一方法产生的决策平面数量,而且解决了一对多方法造成的非平衡问题,可以有效地减少训练时间,提高预测精度。 (2)基于集成多分类支持向量机葡萄酒品质预测方法的研究 为提高改进的多分类支持向量机算法对低品质类的识别率,结合集成学习的思想,探讨了一种AdaBoost集成多分类支持向量机的品质预测方法。在模型训练过程中,利用AdaBoost动态调整样本权值的方式,提高低品质类样本的关注度,能够在保证整体预测性能的同时,显著提高低品质类的识别率。 (3)葡萄酒品质预测仿真模型的构建与评估 结合实际应用,在 PyCharm开发平台下,构建葡萄酒品质预测模型。以Wine Quality数据集为基础,葡萄酒理化属性作为模型输入,感官结果作为模型输出,分别构建多分类支持向量机葡萄酒品质预测模型和集成多分类支持向量机葡萄酒品质预测模型。为评估两种预测模型的预测性能,分别采用四种非平衡数据集预测性能评估指标:Precision、Recall、F-Measure以及ROC曲线,对两种预测模型进行对比分析。实验结果表明,基于集成多分类支持向量机的葡萄酒品质预测模型预测精度高,能够快速并准确地识别样本数据集中的低品质类,并有效解决了具有多类非平衡特点的葡萄酒样本数据预测问题。该预测模型可以为葡萄酒生产过程中的理化指标调优控制提供理论依据和决策支持。