论文部分内容阅读
【摘要】 讨论了在中草药数据分类应用中两种分类器算法classificatinviaregression 和adaboostM1的分类性能的问题,在weka平台上实验可知,这两种分类器算法中adaboostM1的分类精度比较高。
【关键词】 中草药 AdaBoostM1 分类器
一、概述
传统的单分类器算法对于草药数据的分类应用有很多,但是每个单分类器算法对于不同的草药数据的分类性能不同,都有一定的偏向,研究人员开始尝试用组合分类器的方式来弥补单分类器算法的缺点,从而提高传统单分类器的分类性能。本实验用目前应用广泛的adaboostM1算法,与在WEKA平台中的一种单分类器算法classificationviaregression进行比较,验证组合分类器算法的分类性能是否比单分类器算法的好。本文首先在weka平台上用两种分类器算法对草药数据集进行分类,然后再对这两种算法的分类精度进行对比,实验表明:在实验数据集为输入样本集的情况下,AdaboostM1算法的分类精度比较高。
二、AdaBoost 算法介绍
AdaBoostM1[1]算法:输入.训练样本集S〈(x,y)…(x,y)〉。迭代次数 T,弱分类器 WeakLearn。
初始化:样本权值,w=D(i),i=1,…,m
(1)for t=1,……,T
(2)产生分布pt=wt/∑w
(3)基于分布pt调用 WeakLearn,得到假设:ht:X→[0,1]
(4)计算假设ht的错误率: εt=∑pht(xi)-yi
(5)计算βt=εt/(1-εt)
(6)更新w=w×β
(7)end
输出.
当
1ogh(x)≥
1og 时Hf(x)为1,否则Hf(x)为0。
三、在Weka上用AdaBoost算法及几种单分类算法对草药数据进行分类
本文所进行的实验在Weka3-7-1平台上完成,用三种草药三七、人参、西洋参的指纹图谱数据作为实验的数据集。采用对输入的数据集5重交叉验证的方式,取其分类精度为分类性能,分类精度越高表示分类效果越好。
classificationviaregression的参数设置如下:
基分类器为decisionstump,其他的为默认参数设置。
AdaboostM1的参数设置如下:
基分类器为decisionstump,numiteration为10,seed为1,weightThresold为100。
之后执行RUN界面的START指令,再进入ANALYSE界面载入文件选择分析分类精度,可得到这些算法的平均分类精度如表1所示。
四、实验结果与分析
从表1可以看出,在实验的中草药数据集中,AdaBoostM1算法的分类精度大于classificationviaregression算法的分类精度。
五、结论
综上所述,在中草药分类领域,在与classificaitnoviaregression算法比较下,可以利用AdaBoostM1算法来提高传统分类器算法的分类精度,使用AdaBoostM1算法来进行草药数据集的分类以达到高的精度。
【关键词】 中草药 AdaBoostM1 分类器
一、概述
传统的单分类器算法对于草药数据的分类应用有很多,但是每个单分类器算法对于不同的草药数据的分类性能不同,都有一定的偏向,研究人员开始尝试用组合分类器的方式来弥补单分类器算法的缺点,从而提高传统单分类器的分类性能。本实验用目前应用广泛的adaboostM1算法,与在WEKA平台中的一种单分类器算法classificationviaregression进行比较,验证组合分类器算法的分类性能是否比单分类器算法的好。本文首先在weka平台上用两种分类器算法对草药数据集进行分类,然后再对这两种算法的分类精度进行对比,实验表明:在实验数据集为输入样本集的情况下,AdaboostM1算法的分类精度比较高。
二、AdaBoost 算法介绍
AdaBoostM1[1]算法:输入.训练样本集S〈(x,y)…(x,y)〉。迭代次数 T,弱分类器 WeakLearn。
初始化:样本权值,w=D(i),i=1,…,m
(1)for t=1,……,T
(2)产生分布pt=wt/∑w
(3)基于分布pt调用 WeakLearn,得到假设:ht:X→[0,1]
(4)计算假设ht的错误率: εt=∑pht(xi)-yi
(5)计算βt=εt/(1-εt)
(6)更新w=w×β
(7)end
输出.
当
1ogh(x)≥
1og 时Hf(x)为1,否则Hf(x)为0。
三、在Weka上用AdaBoost算法及几种单分类算法对草药数据进行分类
本文所进行的实验在Weka3-7-1平台上完成,用三种草药三七、人参、西洋参的指纹图谱数据作为实验的数据集。采用对输入的数据集5重交叉验证的方式,取其分类精度为分类性能,分类精度越高表示分类效果越好。
classificationviaregression的参数设置如下:
基分类器为decisionstump,其他的为默认参数设置。
AdaboostM1的参数设置如下:
基分类器为decisionstump,numiteration为10,seed为1,weightThresold为100。
之后执行RUN界面的START指令,再进入ANALYSE界面载入文件选择分析分类精度,可得到这些算法的平均分类精度如表1所示。
四、实验结果与分析
从表1可以看出,在实验的中草药数据集中,AdaBoostM1算法的分类精度大于classificationviaregression算法的分类精度。
五、结论
综上所述,在中草药分类领域,在与classificaitnoviaregression算法比较下,可以利用AdaBoostM1算法来提高传统分类器算法的分类精度,使用AdaBoostM1算法来进行草药数据集的分类以达到高的精度。