论文部分内容阅读
摘要针对森林火场采用了新的颜色特征提取方法,融合图像的颜色和纹理特征作为图像的特征向量,并用支持向量机作为学习工具,充分利用已有森林火场的数据进行学习,提高森林火场的自动识别的准确率。结果表明,新的颜色特征提取方法适用于森林火场的识别,采用支持向量机融合多特征可成功用于森林火场的自动识别。
关键词森林火场;特征提取;特征融合;支持向量机
中图分类号S762;TP391文献标识码A文章编号0517-6611(2014)12-03688-02
基金项目“十二五”农村领域国家科技计划项目(2012AA102003-2);国家公益性行业专项(201104037)。
作者简介胡全(1979-),男,助理研究员,从事多媒体信息检索和模式识别研究。*通讯作者,教授,博士生导师,从事模式识别和数字林业等研究。
森林火灾是一种破坏性极大的自然灾害,它对生态环境的影响极为恶劣,造成的损失巨大,因此,它越来越受到世界各国政府的重视。森林火灾中,初期火是较为容易扑灭的,且造成的损失较小,因此对于火场的实时监控并快速地发现火情、识别火场就成为研究的重点之一[1]。为此,笔者采用新的颜色特征提取方法,融合图像的颜色和纹理特征作为图像的特征向量,以支持向量机对大小兴安岭已发生火灾的图像进行学习,从而实现对森林火场的识别。
1 森林火场图像的多特征提取和融合
颜色是图像的一个显著的物理特征,颜色特征相对于几何形状特征而言,对平移、旋转、缩放等变换具有不变性,易于计算且表现出相当强的鲁棒性。颜色直方图表征了图像色彩频率分布,但丢失了色彩的空间信息,而纹理特征可很好地描述色彩的空间信息。针对森林火场产生的颜色和烟雾,选取了森林火场的颜色特征和纹理特征进行融合[2]。
1.1颜色特征的提取在HSV空间中,H从0°到360°变化时,色调依次呈现为红、橙、黄、绿、青、蓝、紫,而且每一种色调对应的H分量的区域不均匀。根据森林火场火焰和烟雾的颜色分布和视觉对颜色的心理感觉,将H分量分为不等间隔的7份。当V足够小(V<0.15)时,视觉感知的颜色基本上接近黑色,可以忽略H的影响,仅需一个量化值就可以表示。当S足够小(S<0.1)时,视觉感知的颜色基本上接近灰度图像,可以忽略H的影响,仅需4个量化值就可以表示。将H、S、V 3个分量进行非均匀量化,把色调H分成7份,饱和度S分成2份,亮度V分成1份,并根据色彩的不同范围进行量化,量化后的色调、饱和度和亮度值分别为H、S、V,见式(1)。
1.2 纹理特征的提取在对森林火场烟雾进行纹理特征提取时,利用灰度共生矩阵法来提取纹理特征[3]。选取表示纹理特征的4个统计量:对比度(contrast)、 纹理的一致性(uniformity)、像素对灰度的相关性(correlation) 和熵2支持向量机的建立
2.1最优分类面及核函数的构建选择SVM作为学习机器[5],SVM是统计学习理论中最年轻的部分,在解决小样本、非线性及高维模式识别问题中表现出很多特有的优势。SVM是从线性可分情况下的最优分类面发展而来的,其基本思想是通过在原始空间或投影后的高维空间中构造最优分类面,进行两类分类[6]。
对于给定的两类可分性训练样本集合(xi,yi)1≤i≤l,其中xi∈Rn,yi∈{-1,+1}。yi是向量xi的类别标签。要找一个分类规则I(x),使它能对未知类别的新样本作尽可能正确的划分。
在训练集线性可分情形时,SVM就是要构造一个最优超平面(w,x)+b=0,这个超平面既要满足yi(w·xi+b)-1≥0,(i=1,K…,l),同时还要使函数φ(w)=12‖w‖2=12(w∶w)取得最小值。
通过求解最优化问题可得最优超平面∑svyia*i(x·xi)+b*=0,其中SV表示支持向量,ai*是拉格朗日乘子。
在训练集线性不可分时,引进松弛因子ξi≥0及惩罚参数C。这时需要做的是在约束yi(w·xi+b)≥1-ξi(i=1,…,l)下最小化函数φ(ξ)=12‖w‖2+C∑li=1ξi。类似可得最优超平面, 最优分类函数只要取I(x)=sgn{∑svyia*i(x·xi)+b*}即可。
在低维空间中向量集往往难于划分,通过映射将向量集映射到高维空间,使其可分,但随之会带来“维数灾难”问题。SVM通过引入核函数巧妙地解决了这个问题。注意到上面的最优分类函数中只涉及样本特征向量的点积,就可以用核函数K(x,y) 代替原來的点积(x,y)。若函数K(x,y)满足Mercer条件,则K(x,y)=(x)·(y),其中表示某个映射(未必知其具体表达式)常用的核函数,有多项式核函数K(x,y)=[(x·y)+s]d、径向基函数K(x,y)=exp(-σ‖x-y‖2)、Sigmoid函数K(x,y)=tanh[k(x·y)-μ]等等。适当选取一个核函数后,就可得到对应高维空间的最优分类函数f(x)=sgn{∑ni=1a*iyiK(xi,x)+b*}[6]。
2.2建立基于支持向量机的分类器为每一类图像建立一个分类器,图像的组合特征(36维)作为支持向量机的输入向量,对图像类进行学习,选取了地表火、树冠火、地下火等50个图像类,共计12 000幅图像。试验数据全部选自伊春林管局火灾图像库。对每类图像,每次从12 000幅图像中先随机抽取50个正例、450个反例,形成一个500幅图像的小规模的样本训练集进行训练得到一个初始的分类器,从12 000幅图像中先随机抽取150个正例、1 850个反例,形成一个2 000幅图像的大规模的样本训练集。用初始的分类器对大规模训练集进行修剪,修剪后得到一个规模很小的约减集,再用这个约减集进行训练得到最终的分类器。
2.3火场图像语义标注①对目标图像I进行预处理,提取目标图像的颜色、纹理和形状共36维特征,构成图像的特征向量V;②将特征向量V提交给分类器树T;③按广度优先策略遍历分类器树T中的每一个节点,若当前节点对应的分类器返回的值为1,则将当前节点对应的分类器的语义信息赋给待分类图像I,并实现图像语义的自动标注,停止对分类器树T 的遍历;若当前节点对应的分类器返回的值为0,继续按广度优先策略遍历分类器树T。④若分类器树T中的所有节点对应的分类器返回的值全部为0,则图像的语义自动标注失败,将这样的图像统一归类,等待人工处理。 3实例分析
3.1图像选取试验中的图像均选自伊春林管局火灾图像库。
试验1选取地表火、树冠火、地下火等50个图像类。从每类图像中抽取200幅正例,以8∶7的比例分配给训练集和测试集。不同类别的图像互相作为反例加入训练集中。训练集的反例还包括1 000幅除此50类图像以外的其他类图像。测试集一共5 000幅,其中除了50类待分类图像外,还包括其他类图像。试验中,核函数选取高斯核,其中σ=2,惩罚参数C=500。将只采用颜色特征分类和融合多特征分类进行了对比试验。
试验2中,采用已建好的分类器,从初期火焰、地表小烟雾、地表大烟雾、树冠火和中期火焰等5个图像类中各随机抽取50幅图像进行测试,进行图像语义自动标注试验。
3.2试验环境 在服务器HP ProLiant DL380p Gen8上,采用Visual C++.NET 语言,SQL Server 2008为数据库,Windows 2008 Server为平台完成了一个图像检索系统,来实现森林火场图像语义的自动标注。
3.3结果与分析 试验1中,采用颜色特征设计的分类器进行森林火场图像语义自动标注的平均正确率为69.3%,融合颜色和纹理特征设计的分类器进行森林火场图像语义自動标注的平均正确率为73.8%,融合多特征较采用单一特征设计的分类器分类的正确率提高了4.5%。
试验2中,采用融合多特征和基于支持向量机构造的分类器进行森林火场图像语义的自动标注,平均正确率为69.4%。
4 结论
基于HSV空间的18色非均匀量化算法,特征维数少,计算量小,检索效果较好;融合多特征可弥补单一特征的不足,提高森林火场识别的准确率;采用支持向量机作为学习机器融合图像多特征实现森林火场图像语义的标注是可行的,采用此方法可以较为快速地实现对森林火场的识别。
参考文献
[1] 吴雪琼,覃先林.我国林火监测体系现状分析[J].森林防火,2010(3):69-72.
[2] MA Y D,LIU L.Pulsecoupled neural networks and oneclass support vector machines[J].Image and Vision Computing,2010,28:1524-1529.
关键词森林火场;特征提取;特征融合;支持向量机
中图分类号S762;TP391文献标识码A文章编号0517-6611(2014)12-03688-02
基金项目“十二五”农村领域国家科技计划项目(2012AA102003-2);国家公益性行业专项(201104037)。
作者简介胡全(1979-),男,助理研究员,从事多媒体信息检索和模式识别研究。*通讯作者,教授,博士生导师,从事模式识别和数字林业等研究。
森林火灾是一种破坏性极大的自然灾害,它对生态环境的影响极为恶劣,造成的损失巨大,因此,它越来越受到世界各国政府的重视。森林火灾中,初期火是较为容易扑灭的,且造成的损失较小,因此对于火场的实时监控并快速地发现火情、识别火场就成为研究的重点之一[1]。为此,笔者采用新的颜色特征提取方法,融合图像的颜色和纹理特征作为图像的特征向量,以支持向量机对大小兴安岭已发生火灾的图像进行学习,从而实现对森林火场的识别。
1 森林火场图像的多特征提取和融合
颜色是图像的一个显著的物理特征,颜色特征相对于几何形状特征而言,对平移、旋转、缩放等变换具有不变性,易于计算且表现出相当强的鲁棒性。颜色直方图表征了图像色彩频率分布,但丢失了色彩的空间信息,而纹理特征可很好地描述色彩的空间信息。针对森林火场产生的颜色和烟雾,选取了森林火场的颜色特征和纹理特征进行融合[2]。
1.1颜色特征的提取在HSV空间中,H从0°到360°变化时,色调依次呈现为红、橙、黄、绿、青、蓝、紫,而且每一种色调对应的H分量的区域不均匀。根据森林火场火焰和烟雾的颜色分布和视觉对颜色的心理感觉,将H分量分为不等间隔的7份。当V足够小(V<0.15)时,视觉感知的颜色基本上接近黑色,可以忽略H的影响,仅需一个量化值就可以表示。当S足够小(S<0.1)时,视觉感知的颜色基本上接近灰度图像,可以忽略H的影响,仅需4个量化值就可以表示。将H、S、V 3个分量进行非均匀量化,把色调H分成7份,饱和度S分成2份,亮度V分成1份,并根据色彩的不同范围进行量化,量化后的色调、饱和度和亮度值分别为H、S、V,见式(1)。
1.2 纹理特征的提取在对森林火场烟雾进行纹理特征提取时,利用灰度共生矩阵法来提取纹理特征[3]。选取表示纹理特征的4个统计量:对比度(contrast)、 纹理的一致性(uniformity)、像素对灰度的相关性(correlation) 和熵2支持向量机的建立
2.1最优分类面及核函数的构建选择SVM作为学习机器[5],SVM是统计学习理论中最年轻的部分,在解决小样本、非线性及高维模式识别问题中表现出很多特有的优势。SVM是从线性可分情况下的最优分类面发展而来的,其基本思想是通过在原始空间或投影后的高维空间中构造最优分类面,进行两类分类[6]。
对于给定的两类可分性训练样本集合(xi,yi)1≤i≤l,其中xi∈Rn,yi∈{-1,+1}。yi是向量xi的类别标签。要找一个分类规则I(x),使它能对未知类别的新样本作尽可能正确的划分。
在训练集线性可分情形时,SVM就是要构造一个最优超平面(w,x)+b=0,这个超平面既要满足yi(w·xi+b)-1≥0,(i=1,K…,l),同时还要使函数φ(w)=12‖w‖2=12(w∶w)取得最小值。
通过求解最优化问题可得最优超平面∑svyia*i(x·xi)+b*=0,其中SV表示支持向量,ai*是拉格朗日乘子。
在训练集线性不可分时,引进松弛因子ξi≥0及惩罚参数C。这时需要做的是在约束yi(w·xi+b)≥1-ξi(i=1,…,l)下最小化函数φ(ξ)=12‖w‖2+C∑li=1ξi。类似可得最优超平面, 最优分类函数只要取I(x)=sgn{∑svyia*i(x·xi)+b*}即可。
在低维空间中向量集往往难于划分,通过映射将向量集映射到高维空间,使其可分,但随之会带来“维数灾难”问题。SVM通过引入核函数巧妙地解决了这个问题。注意到上面的最优分类函数中只涉及样本特征向量的点积,就可以用核函数K(x,y) 代替原來的点积(x,y)。若函数K(x,y)满足Mercer条件,则K(x,y)=(x)·(y),其中表示某个映射(未必知其具体表达式)常用的核函数,有多项式核函数K(x,y)=[(x·y)+s]d、径向基函数K(x,y)=exp(-σ‖x-y‖2)、Sigmoid函数K(x,y)=tanh[k(x·y)-μ]等等。适当选取一个核函数后,就可得到对应高维空间的最优分类函数f(x)=sgn{∑ni=1a*iyiK(xi,x)+b*}[6]。
2.2建立基于支持向量机的分类器为每一类图像建立一个分类器,图像的组合特征(36维)作为支持向量机的输入向量,对图像类进行学习,选取了地表火、树冠火、地下火等50个图像类,共计12 000幅图像。试验数据全部选自伊春林管局火灾图像库。对每类图像,每次从12 000幅图像中先随机抽取50个正例、450个反例,形成一个500幅图像的小规模的样本训练集进行训练得到一个初始的分类器,从12 000幅图像中先随机抽取150个正例、1 850个反例,形成一个2 000幅图像的大规模的样本训练集。用初始的分类器对大规模训练集进行修剪,修剪后得到一个规模很小的约减集,再用这个约减集进行训练得到最终的分类器。
2.3火场图像语义标注①对目标图像I进行预处理,提取目标图像的颜色、纹理和形状共36维特征,构成图像的特征向量V;②将特征向量V提交给分类器树T;③按广度优先策略遍历分类器树T中的每一个节点,若当前节点对应的分类器返回的值为1,则将当前节点对应的分类器的语义信息赋给待分类图像I,并实现图像语义的自动标注,停止对分类器树T 的遍历;若当前节点对应的分类器返回的值为0,继续按广度优先策略遍历分类器树T。④若分类器树T中的所有节点对应的分类器返回的值全部为0,则图像的语义自动标注失败,将这样的图像统一归类,等待人工处理。 3实例分析
3.1图像选取试验中的图像均选自伊春林管局火灾图像库。
试验1选取地表火、树冠火、地下火等50个图像类。从每类图像中抽取200幅正例,以8∶7的比例分配给训练集和测试集。不同类别的图像互相作为反例加入训练集中。训练集的反例还包括1 000幅除此50类图像以外的其他类图像。测试集一共5 000幅,其中除了50类待分类图像外,还包括其他类图像。试验中,核函数选取高斯核,其中σ=2,惩罚参数C=500。将只采用颜色特征分类和融合多特征分类进行了对比试验。
试验2中,采用已建好的分类器,从初期火焰、地表小烟雾、地表大烟雾、树冠火和中期火焰等5个图像类中各随机抽取50幅图像进行测试,进行图像语义自动标注试验。
3.2试验环境 在服务器HP ProLiant DL380p Gen8上,采用Visual C++.NET 语言,SQL Server 2008为数据库,Windows 2008 Server为平台完成了一个图像检索系统,来实现森林火场图像语义的自动标注。
3.3结果与分析 试验1中,采用颜色特征设计的分类器进行森林火场图像语义自动标注的平均正确率为69.3%,融合颜色和纹理特征设计的分类器进行森林火场图像语义自動标注的平均正确率为73.8%,融合多特征较采用单一特征设计的分类器分类的正确率提高了4.5%。
试验2中,采用融合多特征和基于支持向量机构造的分类器进行森林火场图像语义的自动标注,平均正确率为69.4%。
4 结论
基于HSV空间的18色非均匀量化算法,特征维数少,计算量小,检索效果较好;融合多特征可弥补单一特征的不足,提高森林火场识别的准确率;采用支持向量机作为学习机器融合图像多特征实现森林火场图像语义的标注是可行的,采用此方法可以较为快速地实现对森林火场的识别。
参考文献
[1] 吴雪琼,覃先林.我国林火监测体系现状分析[J].森林防火,2010(3):69-72.
[2] MA Y D,LIU L.Pulsecoupled neural networks and oneclass support vector machines[J].Image and Vision Computing,2010,28:1524-1529.