论文部分内容阅读
摘要 提出了一种基于支持向量机(C-SVM)区分大米品种的方法。首先对大米图像进行阈值分割、平滑处理等预处理,并根据大米的粒型特点,提取米粒的面积、周长等6个形态特征。利用Orange Canvas数据挖掘软件先对linear和RBF核函数进行核参数选择,并在Opencv 3.0环境下,编程实现K-means、linear和RBF的3种大米品种识别方法,对10组混合大米图像进行品种测试。试验结果表明,支持向量机线性核函数对大米品种识别具有较高的预测稳定性,识别分类准确率约为99%。
关键词 品种;特征提取;K-means;linear;RBF
中图分类号 S24 文献标识码 A 文章编号 0517-6611(2016)23-201-03
随着机器视觉技术的发展和广泛应用,利用机器视觉实现大米品种识别已受到广泛关注。目前市面上出现许多掺假大米现象,以人工的方式辨别是否掺杂不同种类的大米,是一项费力费时的作业。因此,对大米品种识别是实现大米自动化分类的前提。
近年来,国内外对谷物的外观品质研究较多,但对大米品种分类的研究主要还是在亚洲国家,且相对较少。对于大米品种研究主要集中在利用神经网络算法上,周子立等[1]结合可见-近红外光谱技术,利用小波变换、主成分分析,建立人工神经网络模型,对不同品种大米进行预测分析,效果显著,为大米品种鉴别提供一种新方法。方华等[2]基于模糊神经网络对大米品种进行识别研究,识别精度接近 94%,对珍珠米的识别可达 100%。Abirami等[3]利用神经网络模式识别大米品种,在米粒不发生重叠时,米粒分类的正确率达到98.7%,在米粒发生重叠时,米粒分类的正确率变为91.3%。林萍等[4]采用红外光谱技术,用遗传算法、偏最小二乘法与误差逆传播神经网络相结合,对大米品种进行预测,提高了识别的精准度。近几年来,也出现许多学者利用支持向量机和稀疏表示[5]对大米品种进行识别。Jin Xiaming等[6]是在高光谱数据下,分别比较研究LS-SVM、SVM中核函数linear与K-近邻算法(KNN)在大米品种中的预测准确度,LS-SVM具有较好的准确度。
综上研究发现,利用神经网络对大米进行识别分类较多,对于米粒这种小样本集的分类,实际上不需要获取无限多的训练样本,支持向量机则是针对小样本问题进行学习和分类,解决神经网络中无法避免的局部极小问题,增强了非线性分类能力[7-8]。虽然目前已存在利用支持向量机对大米品种进行分类的研究,但都是通过采集大米的高光谱数据进行研究分析,成本高。从目前研究来看,还没有学者直接利用大米特征参数中的原始数据,比较分析支持向量机中线性核函数和径向基核函数之间的预测准确度的差异。
因此,笔者根据大米粒型特征,提取米粒的面积、周长、长、宽、长宽比及圆度6个特征参数,并根据这些特征参数,比较分析SVM中线性核函数和径向基核函数预测准确度,并与最传统的聚类方法K-均值聚类算法进行分析比较,为后续大米品种检测提供依据。
1 试验装置与材料
1.1 试验设备
以相机获取米粒图像,容易受到光照的影响,且不同环境光源下所受到的影响差异较大,相比之下,以扫描仪获取的图像较为稳定,采用300 dpi进行灰度扫描,图像以JPG格式进行存储。为了防止米粒发生黏连、重叠的问题,该研究使用置米盘将米粒分开[9],置米盘样式如图1所示。
1.2 试验材料
试验所用的大米品种为江西省岱宝山产的软丁优米和黑龙省哈尔滨产的东北米。
2 图像处理
2.1 图像预处理
图2a为采集的样品图像,运用Otsu算法来设定最优阈值,将图像中的背景和目标进行分离(如图2b),再将其进行二值化处理。为了能够消除图像的噪声,对大米图像进行中值滤波(如图2c),滤波后图像轮廓清晰,颗粒状噪声得到很好地抑制。最后,利用canny算法提取大米轮廓,如图2d所示。
2.2 特征参数的获取
根据前人研究成果所得[10-12],大米的粒型主要取决于面积、周长、长、宽、长宽比及圆度6个几何特征参数,特征参数见表1。
3 分类算法
3.1 支持向量机
支持向量机(Support Vector Machines,SVM)是建立在统计学习理论基础之上的新一代机器学习算法,主要解决小样本、非线性及高维模式识别问题,其基本思想是通过核函数将数据从原始特征空间映射到高维特征空间,来实现最优分类超平面,并用此超平面实现对未知样本的判断[13]。
SVM常用核函数主要有线性核函数、多项式核函数、径向基核函数和sigmoid核函数。该研究选用最常见的2种核函数——线性核函数和径向基核函数,对大米不同品种进行比较分析。
SVM分类器性能的关键是参数的选择。Linear仅受边界参数C的影响,而RBF同时受到边界参数C和核宽度的影响。边界参数C是结构风险和样本无误差的综合考虑,其值与训练可容忍的误差相关,而核宽度g的取值与输入的样本范围有关[14]。在训练前,将训练样本导入Orange Canvas数据挖掘软件进行核参数预判,获取Linear边界参数C=RBF则选用C=1、g=0.125,分类效果最佳,识别准确率均可达到99%以上。
3.2 K-均值聚类算法
K-均值聚类算法(K-means)是一种聚群、非监督学习算法,它主要受初始位置的选择、K值、度量距离3个方面因素的影响。该算法主要步骤是根据K值选定,随机设定K个中心点作为聚类中心,再将除了聚类中心点之外的数据点分配给最邻近的中心点,分配完成后,将中心点移动到所表示的聚类的平均中心位置处,重复迭代上述步骤,直到准则函数收敛。通常采用的准则函数为平方误差和准则函数,即SSE(sum of the squared error),其定义如下: 3.3 算法评价与指标
为了说明分类方法的准确性,采用正确率(Accurate,ACC)、命中率(Precision,P),召回率(Recall,R)及F1度量(Recall和Precision的调和平均数)4个计算指标对结果进行评价。指标计算如式(4)~(7)所示:
式中,TP表示正确预测到正例的数量;TN表示正确预测到负例的数量;FP表示负例预测到正例的数量;FN表示正例预测到负例的数量。
ACC是表示评估分类器好坏的指标,正确率越高,分类器越好。命中率是精确度的度量,是指分类模型判为正的所有样本中有多少是真正的正样本。召回率则是覆盖面的度量,是所有正样本有多少被分类模型判为正样本。F1是将命中率和召回率的方法组合成一个度量指标,它赋予命中率和召回率相等的权重。该研究将用上述指标进行对分类模型的判断,其值越大,表示分类效果越好。
4 试验结果与分析
4.1 数据处理与分析
为了证实所提取的大米特征能反映大米的真实信息,采用主成分分析方法对所提取的特征值进行分析。大米粒型特征值的标准误差、各特征值的贡献率以及累计贡献率见表2。
从表2 可知,所提取的大米特征参数基本上能够反映大米粒型的全部信息。
4.2 检测结果分析
该研究分别选取1 000粒大米作为SVM训练样本,选取10张随机混合大米图像进行预测。操作系统为Windows XP,以Qt 5.5.1为开发工具,借助Opencv 3.0进行图像处理和分析。编程实现K-means、Linear和RBF的大米品种识别方法。表3是利用K-means、Linear和RBF 3种方法对2种大米识别结果比较。从表3可知,对于2种大米测试样本,K-means、linear和RBF识别的准确率分别为 98.75%、98.83%和96.01%。在这3类模型中,K-means表现出更低分类准确率,原因在于它是根据每张大米图像样本信息进行分聚类,没有统一标准,而SVM是事先对样本进行训练,系统已具有大米品种特征参数,预测时,只需根据每粒大米的特征参数进行归类。
同时,试验结果表明,Linear比RBF召回率高,即说明分类器正确预测正例的比例高,预测稳定性比较好。Linear具有较高的F1值,则说明大米在进行品种识别中,Linear优于其他2种算法。
5 结论
该研究使用平板扫描仪获取大米粒型图像,编程实现对大米外观特征提取与检测算法,并利用SVM与K-means的方法,对2种大米进行了识别研究。结果表明,
利用SVM进行大米识别,Linear和RBF具有相似的分类准确率,准确率约为99%。但是Linear的预测稳定性要比RBF核函数的预测稳定性要高。
相比于SVM分类效果,K-means具有相对较低的准确率,但K-means无需对样本训练进行事先的训练,节省了大部分的时间,且相对于小样本的数据,运算时间短,
丰富了大米图像识别研究,为大米外部品质识别提供了客观可行的方法,同时也为其他的农作物产品品种识别与鉴定提供参考价值。
该装置具有良好的扩展性,我国稻米种类繁多,后续将对更多品种进行广泛的取样与试验,但是目前该研究只针对2种粒型的大米进行研究,还需要对不同品种和分类算法展开试验研究等进一步校正和完善,从而建立大米外观品质识别评价体系,为进一步实现大米在线检测和自动分级提供基础。
参考文献
[1]周子立,张瑜,何勇,等.基于近红外光谱技术的大米品种快速鉴别方法[J].农业工程学报,2009,25(8):131-134.
[2]方华,孙翠霞,张虎.基于模糊神经网络的大米品种识别算法研究[J].安徽农业科学,2012,40(29):14617-14619.
[3]ABIRAMI S,NEELAMEGAM P,KALA H.Analysis of rice granules using image processing and neural net-work pattern recognition tool[J].International journal of com-puter applications,2014,96(7):20-24.
[4]林萍,陈永明. 利用可见近红外光谱技术快速鉴别大米品种[J].江苏农业科学,2015,43(12):320-323.
[5]杨蜀秦,宁纪锋,何东健.基于稀疏表示的大米品种识别[J].农业工程学报,20127(3):191-195.
[6]JIN X M,SUN J,MAO H P,et al.Discrimination of rice varieties using LS-SVM classification algorithms and hyperspectral Data [J].Advance journal of food science and technology,2015,7(9):691-696.
[7]NIBLACK W,BARBER R,EQUITZ W,et al.The QBIC project:Querying images by content,using color,texture and shape[J].SPIE,1993,19(8):173-187.
[8]CHAPELLE O,HAFFNER P,VAPNIK V N,et al.Support vector machines for his-togram-based image classification[J].IEEE Trans on neural networks,1999,10(5):1055-1064.
[9]许秉宗.米粒影像特征擷取与分群演算法之探讨[R].2014.
[10]袁佐云,牛兴和,刘传云.基于最小外接矩形的稻米粒型检测方法[J].粮食与饲料工业,2006(9):7-8.
[11]吴才章,步东伟.稻米粒型特性参数测试系统的开发[J].农业工程学报,2010(12):131-135.
[12]张聪,张慧.基于 Canny 算法的大米粒型边缘检测应用研究[J].粮食与饲料工业,2008(6):3-4.
[13]梁龙,房桂干,吴珽,等.基于支持向量机的近红外特征变量选择算法用于树种快速识别[J].分析测试学报,2016(1):101-106.
[14]刘伟,刘长虹,郑磊.基于支持向量机的多光谱成像稻谷品种鉴别[J].农业工程学报,2014,30(10):145-151.
关键词 品种;特征提取;K-means;linear;RBF
中图分类号 S24 文献标识码 A 文章编号 0517-6611(2016)23-201-03
随着机器视觉技术的发展和广泛应用,利用机器视觉实现大米品种识别已受到广泛关注。目前市面上出现许多掺假大米现象,以人工的方式辨别是否掺杂不同种类的大米,是一项费力费时的作业。因此,对大米品种识别是实现大米自动化分类的前提。
近年来,国内外对谷物的外观品质研究较多,但对大米品种分类的研究主要还是在亚洲国家,且相对较少。对于大米品种研究主要集中在利用神经网络算法上,周子立等[1]结合可见-近红外光谱技术,利用小波变换、主成分分析,建立人工神经网络模型,对不同品种大米进行预测分析,效果显著,为大米品种鉴别提供一种新方法。方华等[2]基于模糊神经网络对大米品种进行识别研究,识别精度接近 94%,对珍珠米的识别可达 100%。Abirami等[3]利用神经网络模式识别大米品种,在米粒不发生重叠时,米粒分类的正确率达到98.7%,在米粒发生重叠时,米粒分类的正确率变为91.3%。林萍等[4]采用红外光谱技术,用遗传算法、偏最小二乘法与误差逆传播神经网络相结合,对大米品种进行预测,提高了识别的精准度。近几年来,也出现许多学者利用支持向量机和稀疏表示[5]对大米品种进行识别。Jin Xiaming等[6]是在高光谱数据下,分别比较研究LS-SVM、SVM中核函数linear与K-近邻算法(KNN)在大米品种中的预测准确度,LS-SVM具有较好的准确度。
综上研究发现,利用神经网络对大米进行识别分类较多,对于米粒这种小样本集的分类,实际上不需要获取无限多的训练样本,支持向量机则是针对小样本问题进行学习和分类,解决神经网络中无法避免的局部极小问题,增强了非线性分类能力[7-8]。虽然目前已存在利用支持向量机对大米品种进行分类的研究,但都是通过采集大米的高光谱数据进行研究分析,成本高。从目前研究来看,还没有学者直接利用大米特征参数中的原始数据,比较分析支持向量机中线性核函数和径向基核函数之间的预测准确度的差异。
因此,笔者根据大米粒型特征,提取米粒的面积、周长、长、宽、长宽比及圆度6个特征参数,并根据这些特征参数,比较分析SVM中线性核函数和径向基核函数预测准确度,并与最传统的聚类方法K-均值聚类算法进行分析比较,为后续大米品种检测提供依据。
1 试验装置与材料
1.1 试验设备
以相机获取米粒图像,容易受到光照的影响,且不同环境光源下所受到的影响差异较大,相比之下,以扫描仪获取的图像较为稳定,采用300 dpi进行灰度扫描,图像以JPG格式进行存储。为了防止米粒发生黏连、重叠的问题,该研究使用置米盘将米粒分开[9],置米盘样式如图1所示。
1.2 试验材料
试验所用的大米品种为江西省岱宝山产的软丁优米和黑龙省哈尔滨产的东北米。
2 图像处理
2.1 图像预处理
图2a为采集的样品图像,运用Otsu算法来设定最优阈值,将图像中的背景和目标进行分离(如图2b),再将其进行二值化处理。为了能够消除图像的噪声,对大米图像进行中值滤波(如图2c),滤波后图像轮廓清晰,颗粒状噪声得到很好地抑制。最后,利用canny算法提取大米轮廓,如图2d所示。
2.2 特征参数的获取
根据前人研究成果所得[10-12],大米的粒型主要取决于面积、周长、长、宽、长宽比及圆度6个几何特征参数,特征参数见表1。
3 分类算法
3.1 支持向量机
支持向量机(Support Vector Machines,SVM)是建立在统计学习理论基础之上的新一代机器学习算法,主要解决小样本、非线性及高维模式识别问题,其基本思想是通过核函数将数据从原始特征空间映射到高维特征空间,来实现最优分类超平面,并用此超平面实现对未知样本的判断[13]。
SVM常用核函数主要有线性核函数、多项式核函数、径向基核函数和sigmoid核函数。该研究选用最常见的2种核函数——线性核函数和径向基核函数,对大米不同品种进行比较分析。
SVM分类器性能的关键是参数的选择。Linear仅受边界参数C的影响,而RBF同时受到边界参数C和核宽度的影响。边界参数C是结构风险和样本无误差的综合考虑,其值与训练可容忍的误差相关,而核宽度g的取值与输入的样本范围有关[14]。在训练前,将训练样本导入Orange Canvas数据挖掘软件进行核参数预判,获取Linear边界参数C=RBF则选用C=1、g=0.125,分类效果最佳,识别准确率均可达到99%以上。
3.2 K-均值聚类算法
K-均值聚类算法(K-means)是一种聚群、非监督学习算法,它主要受初始位置的选择、K值、度量距离3个方面因素的影响。该算法主要步骤是根据K值选定,随机设定K个中心点作为聚类中心,再将除了聚类中心点之外的数据点分配给最邻近的中心点,分配完成后,将中心点移动到所表示的聚类的平均中心位置处,重复迭代上述步骤,直到准则函数收敛。通常采用的准则函数为平方误差和准则函数,即SSE(sum of the squared error),其定义如下: 3.3 算法评价与指标
为了说明分类方法的准确性,采用正确率(Accurate,ACC)、命中率(Precision,P),召回率(Recall,R)及F1度量(Recall和Precision的调和平均数)4个计算指标对结果进行评价。指标计算如式(4)~(7)所示:
式中,TP表示正确预测到正例的数量;TN表示正确预测到负例的数量;FP表示负例预测到正例的数量;FN表示正例预测到负例的数量。
ACC是表示评估分类器好坏的指标,正确率越高,分类器越好。命中率是精确度的度量,是指分类模型判为正的所有样本中有多少是真正的正样本。召回率则是覆盖面的度量,是所有正样本有多少被分类模型判为正样本。F1是将命中率和召回率的方法组合成一个度量指标,它赋予命中率和召回率相等的权重。该研究将用上述指标进行对分类模型的判断,其值越大,表示分类效果越好。
4 试验结果与分析
4.1 数据处理与分析
为了证实所提取的大米特征能反映大米的真实信息,采用主成分分析方法对所提取的特征值进行分析。大米粒型特征值的标准误差、各特征值的贡献率以及累计贡献率见表2。
从表2 可知,所提取的大米特征参数基本上能够反映大米粒型的全部信息。
4.2 检测结果分析
该研究分别选取1 000粒大米作为SVM训练样本,选取10张随机混合大米图像进行预测。操作系统为Windows XP,以Qt 5.5.1为开发工具,借助Opencv 3.0进行图像处理和分析。编程实现K-means、Linear和RBF的大米品种识别方法。表3是利用K-means、Linear和RBF 3种方法对2种大米识别结果比较。从表3可知,对于2种大米测试样本,K-means、linear和RBF识别的准确率分别为 98.75%、98.83%和96.01%。在这3类模型中,K-means表现出更低分类准确率,原因在于它是根据每张大米图像样本信息进行分聚类,没有统一标准,而SVM是事先对样本进行训练,系统已具有大米品种特征参数,预测时,只需根据每粒大米的特征参数进行归类。
同时,试验结果表明,Linear比RBF召回率高,即说明分类器正确预测正例的比例高,预测稳定性比较好。Linear具有较高的F1值,则说明大米在进行品种识别中,Linear优于其他2种算法。
5 结论
该研究使用平板扫描仪获取大米粒型图像,编程实现对大米外观特征提取与检测算法,并利用SVM与K-means的方法,对2种大米进行了识别研究。结果表明,
利用SVM进行大米识别,Linear和RBF具有相似的分类准确率,准确率约为99%。但是Linear的预测稳定性要比RBF核函数的预测稳定性要高。
相比于SVM分类效果,K-means具有相对较低的准确率,但K-means无需对样本训练进行事先的训练,节省了大部分的时间,且相对于小样本的数据,运算时间短,
丰富了大米图像识别研究,为大米外部品质识别提供了客观可行的方法,同时也为其他的农作物产品品种识别与鉴定提供参考价值。
该装置具有良好的扩展性,我国稻米种类繁多,后续将对更多品种进行广泛的取样与试验,但是目前该研究只针对2种粒型的大米进行研究,还需要对不同品种和分类算法展开试验研究等进一步校正和完善,从而建立大米外观品质识别评价体系,为进一步实现大米在线检测和自动分级提供基础。
参考文献
[1]周子立,张瑜,何勇,等.基于近红外光谱技术的大米品种快速鉴别方法[J].农业工程学报,2009,25(8):131-134.
[2]方华,孙翠霞,张虎.基于模糊神经网络的大米品种识别算法研究[J].安徽农业科学,2012,40(29):14617-14619.
[3]ABIRAMI S,NEELAMEGAM P,KALA H.Analysis of rice granules using image processing and neural net-work pattern recognition tool[J].International journal of com-puter applications,2014,96(7):20-24.
[4]林萍,陈永明. 利用可见近红外光谱技术快速鉴别大米品种[J].江苏农业科学,2015,43(12):320-323.
[5]杨蜀秦,宁纪锋,何东健.基于稀疏表示的大米品种识别[J].农业工程学报,20127(3):191-195.
[6]JIN X M,SUN J,MAO H P,et al.Discrimination of rice varieties using LS-SVM classification algorithms and hyperspectral Data [J].Advance journal of food science and technology,2015,7(9):691-696.
[7]NIBLACK W,BARBER R,EQUITZ W,et al.The QBIC project:Querying images by content,using color,texture and shape[J].SPIE,1993,19(8):173-187.
[8]CHAPELLE O,HAFFNER P,VAPNIK V N,et al.Support vector machines for his-togram-based image classification[J].IEEE Trans on neural networks,1999,10(5):1055-1064.
[9]许秉宗.米粒影像特征擷取与分群演算法之探讨[R].2014.
[10]袁佐云,牛兴和,刘传云.基于最小外接矩形的稻米粒型检测方法[J].粮食与饲料工业,2006(9):7-8.
[11]吴才章,步东伟.稻米粒型特性参数测试系统的开发[J].农业工程学报,2010(12):131-135.
[12]张聪,张慧.基于 Canny 算法的大米粒型边缘检测应用研究[J].粮食与饲料工业,2008(6):3-4.
[13]梁龙,房桂干,吴珽,等.基于支持向量机的近红外特征变量选择算法用于树种快速识别[J].分析测试学报,2016(1):101-106.
[14]刘伟,刘长虹,郑磊.基于支持向量机的多光谱成像稻谷品种鉴别[J].农业工程学报,2014,30(10):145-151.