论文部分内容阅读
摘要:目前现有区域创新能力线性评价手段存在着不足,因此提出了基于SVDD的中国区域创新能力的评价。该方法首先在对样本数据标准化处理的基础上,利用因子分析方法进行降维,进而应用SVDD模型实现区域创新能力的评价。同时给出了SVDD评价方法的具体步骤,并将其应用到中国各地区区域创新能力的评价中,取得了较为理想的结果。
关键词:数据描述;区域创新能力;支持向量机
中图分类号:F224.9 文献标识码:A
The Evaluation of Regional Innovative Capability in China Based on SVDD
WU Ting,XIAO Jian-hua
(Institute of Intelligent Technology & Systems, Wuyi University, Jiangmen 529020, China)
Abstract:
In order to overcome the prevalent defects of the existing regional innovative capability linear evaluation methods, a SVDD evaluation method is proposed by combining the results of the kernel method. In the proposed method, the factor analysis method is used to reduce the dimensions of the standardized sample data firstly, and then the SVDD model is used to achieve the evaluation of the regional innovation capability. The detailed procedures are described as the recommended method leads to the desirable result.
Key words:
一、引言
所谓区域创新能力可以理解为:某一特定区域的各个创新主体在一定创新环境条件下,创新投入与产出的水平[1]。
区域创新能力不仅代表了创新要素在一定区域内聚集、整合以及推动持续创新的基本能力,也决定了一个地区长期的经济发展能力。因此,深入分析和评价区域创新能力,对各级政府采取针对性措施,加强区域创新能力具有重要的决策咨询价值。
对区域创新能力的评价是一个复杂的过程,它涉及的因素众多,且这些因素相互联系,相互耦合,最终导致相关数据呈现出高度的非线性和不确定性。然而,在现有的对区域创新能力的评价方法的研究中,大多数研究是通过线型分析求得各地区的综合创新能力,特别是在确定各指标权重时往往依赖于决策者的主观经验。这些研究方法虽然计算简单,容易理解;但非线性处理能力不足。
数据描述(data description)也称为一类分类(one-class classification)方法[3,4],主要用于描述现有样本的分布特征。D.Tax等人[5]以支持向量分类器为基础提出了支持向量数据描述算法(Support Vector Data Description,SVDD)。这种方法能够围绕目标类数据建立支持向量描述模型――包含目标类数据的超球体,将目标类与所有离群类分开。笔者将借助SVDD实现区域创新能力的智能评价。
二、基于数据描述的聚类方法
数据描述的一种直接方法就是用一个具有最小体积的超球体将样本集中的全体样本包含起来。对于样本集X={X1,x2,…,Xn}设将样本集中全体样本完全包围所对应的最小球体的半径为R,对应的球心向量为a,则R,a满足如下优化方程:
由式(1)和式(2)建立Lagrange函数:
考虑到L(R,a,α)对R,a取极小,因此对式(3)关于R,a求偏微分,并令它们为0,可得:
a=∑[DD(]n[]i=1[DD)]αiXi[JY](6)
将式(5)和式(6)代入式(3),稍作变换,即得优化方程:
根据KKT条件,α中只有部分αi>0,正是与这部分αi相对应的样本点决定了封闭超球体的半径和球心,这些样本点即为支持向量(Support Vector, SV)。
由式(7)获得系数αi后,即可由式(6)获得球心向量a,进一步任选一支持向量 由式(10)得到超球体的半径R。
由式(7)求得的超球体形式单一,且可能范围过大,往往不能准确地反映实际样本数据的分布特征。为此,在上述优化过程中引入核方法[3],即在式(7)中引入核函数:
此时与式(7)对应的优化方程为:
约束条件不变。特别地,选择高斯径向基核函数:
有K(Xi,Xi)=1[JY](14)
结合式(8),式(12)变换为:
选择合适的核函数,可以在数据空间中获得较为理想的数据描述边界。
考虑图1所示的两维一类样本分布,如采用一般的方法进行数据描述操作,所得结果如图1(a)所示,以高斯径向基函数作为核函数,采用核方法进行数据描述操作所得结果如图1(b),显然采用核方法后的结果要合理得多,因为它很紧致,基本上没有多余的空间。此外基于核方法的数据描述方法能降低噪声数据的干扰[6]。
[TPJ1.tif,+45mm。100mm,BP]
[TS(][HT5”H]图1 数据描述方法[TS)]
调整核函数式(13)中的参数σ可得到的如图2所示的非常有趣的一种现象:当σ较大时,所形成的分类区域较大,随着σ的减小,边界越来越紧致,但是当σ减到某一临界点时,分类区域被分割成几个孤立的小块,如图2(c)所示。当然,随着σ的进一步减小,最终会形成每一个样本点对应一个小的区域,也就是说,每一个样本点都是支持向量。
造成图2所示的这种现象的原理其实也比较容易解释,因为σ越小,对应的高斯函数越尖锐,所形成的"小山包"也就小而陡,即辐射能力小。
不难看出,图2(c)可用于聚类分析。
三、区域创新能力的智能评价
(一)区域创新能力评价指标
2001年中国科技发展战略研究小组首次编写了《中国区域创新能力报告》,并建立了如下的中国区域创新能力评价指标体系[7]。
[TPJ3.tif,+118mm。70mm,BP]
[TS(][HT5”H]图3 中国区域创新能力评价指标体系[TS)]
由图3可知,我国区域创新能力评价指标体系主要包括:知识创造、知识获取、企业创新、创新环境、创新绩效等五个方面。这五个方面的指标相互关联、相互耦合,最终导致相关数据呈现出高度的非线性和不确定性,然而由于这些指标在不同的地区均具有可比性,因此可操作性很强。收集的指标数据见表1,用m1-m5分别表示上述5个方面。
由于不同指标之间的数量级相差很大,因此要对原始数据进行标准化。并且为了便于在直角坐标上显示分类效果,要使用因子分析把指标个数降为2维。因子分析过程采用方差最大(Varimax)正交旋转变换。从旋转后因子载荷矩阵可以看出,前两个因子的累计方差贡献率已达91.8%。显然,提取这两个因子作为公共因子已足以表达样本数据的绝大多数信息。这两个因子可以表示为:X=(0.235,0.905,0.947,0.715,0.614)T,X2=(0.944,0.372,0.239,0.629,0.670)T。可以看出:知识获取、企业创新和创新环境3个变量在第一主成分上有高载荷,可将其命名为基础因子;知识创造在第二主成分上有高载荷,反映了区域创新的结果和产出,可将其命名为产出因子。降维后的数据如表2。
(二) 区域创新能力的SVDD评价
图3是表2中各地区企业经营绩效降维数据的图形分布,横坐标对应第一主成分,纵坐标对应第二主成分。
选择高斯径向基核函数
利用式(15),对表2中数据进行聚类分析,所得结果如图3所示。其中 表示第一主成分, 表示第二主成分。
通过对图4作简单分析,可得出如下的聚类结果:上海、北京为第一类,创新能力为超强;广东、江苏、浙江为第二类,创新能力为强;山东、天津为第三类,创新能力为较强;辽宁、福建、重庆、陕西、安徽、湖北、黑龙江、湖南、山西、河北、四川、河南、内蒙古、吉林、江西、广西、海南、新疆为第四类,创新能力为一般;贵州、甘肃、宁夏、云南、青海、西藏为第五类,创新能力为弱。此分类结果与现实非常吻合。
以上基于支持向量数据描述的区域创新能力评价方法,克服了传统定量方法所采用的线性排序的不足。传统线性排序方法在确定指标权重的时候经常依赖于决策者的主观经验,往往未能客观地反映各指标的主次性。而借助SVDD实现各地区创新能力的聚类,不仅更客观地综合了区域创新能力各方面的信息,而且聚类结果更形象更合理。就北京而言,其在全国属于创新能力最强的地区之一。北京市的创新能力表现为政府的高投入,企业的高投入和投入的国际化。并且由于北京市的科技资源丰富,研究开发机构已成为其创新能力的主导力量。但是,北京市的企业创新能力仍然偏低,从而也导致了其整体创新能力要低于上海。北京市今后应努力提高其企业创新能力,加强企业与高校和研究机构的合作,大力发展经济外向度,提高整体创新能力。
四、结语
支持向量机优越的非线性处理能力使得它在众多领域得到了广泛的应用,而数据描述则拓广了支持向量机的应用领域。笔者针对现有区域创新能力评价方法存在的线性分析的不足,提出了区域创新能力的SVDD评价方法,并取得了十分理想的效果。此聚类结果不仅综合了各个体的具体信息,而且能给决策者提供更丰富的参考建议。
参考文献:
[1] 基于因子分析法的中国区域创新能力的评价及比较[J].系统工程.2007,25(2):87-92.
[2] 贺政楚.企业经营绩效的数据包络模型及评价方法研究[J].贵州工业大学学报.2006,8(5):18-22.
[3] K. R. Muller, S. Mika, G. R?tsch, et al. An Introduction to Kernel-Based Learning Algorithms. IEEE Trans. on Neural Networks. 2001,12(2):181-201.
[4] D. Tax, R.Duin. Combining One-class Classifiers. in: J. Kittler, F. Roli (eds.), Multiple Classifier Systems, Proceedings Second International Workshop MCS 2001 (Cambridge, UK, July), Lecture Notes in Computer Science, vol. 2096, Springer Verlag, Berlin, 2001, 299-308.
[5] TAX D, DUN B.Data domain description using support vectors. Proc of the European Symposium on Artifical Neural Neworks. 1999,251-256.
[6] 肖健华.机械设备运行状态特征提取与模式分类中的智能方法研究[J].华中科技大学博士学位论文,2002.[7] 中国科技发展战略研究小组.中国区域创新能力报告(2005~2006)[M].北京:科学出版社.2006:8-11.
(责任编辑:吕洪英)
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
关键词:数据描述;区域创新能力;支持向量机
中图分类号:F224.9 文献标识码:A
The Evaluation of Regional Innovative Capability in China Based on SVDD
WU Ting,XIAO Jian-hua
(Institute of Intelligent Technology & Systems, Wuyi University, Jiangmen 529020, China)
Abstract:
In order to overcome the prevalent defects of the existing regional innovative capability linear evaluation methods, a SVDD evaluation method is proposed by combining the results of the kernel method. In the proposed method, the factor analysis method is used to reduce the dimensions of the standardized sample data firstly, and then the SVDD model is used to achieve the evaluation of the regional innovation capability. The detailed procedures are described as the recommended method leads to the desirable result.
Key words:
一、引言
所谓区域创新能力可以理解为:某一特定区域的各个创新主体在一定创新环境条件下,创新投入与产出的水平[1]。
区域创新能力不仅代表了创新要素在一定区域内聚集、整合以及推动持续创新的基本能力,也决定了一个地区长期的经济发展能力。因此,深入分析和评价区域创新能力,对各级政府采取针对性措施,加强区域创新能力具有重要的决策咨询价值。
对区域创新能力的评价是一个复杂的过程,它涉及的因素众多,且这些因素相互联系,相互耦合,最终导致相关数据呈现出高度的非线性和不确定性。然而,在现有的对区域创新能力的评价方法的研究中,大多数研究是通过线型分析求得各地区的综合创新能力,特别是在确定各指标权重时往往依赖于决策者的主观经验。这些研究方法虽然计算简单,容易理解;但非线性处理能力不足。
数据描述(data description)也称为一类分类(one-class classification)方法[3,4],主要用于描述现有样本的分布特征。D.Tax等人[5]以支持向量分类器为基础提出了支持向量数据描述算法(Support Vector Data Description,SVDD)。这种方法能够围绕目标类数据建立支持向量描述模型――包含目标类数据的超球体,将目标类与所有离群类分开。笔者将借助SVDD实现区域创新能力的智能评价。
二、基于数据描述的聚类方法
数据描述的一种直接方法就是用一个具有最小体积的超球体将样本集中的全体样本包含起来。对于样本集X={X1,x2,…,Xn}设将样本集中全体样本完全包围所对应的最小球体的半径为R,对应的球心向量为a,则R,a满足如下优化方程:
由式(1)和式(2)建立Lagrange函数:
考虑到L(R,a,α)对R,a取极小,因此对式(3)关于R,a求偏微分,并令它们为0,可得:
a=∑[DD(]n[]i=1[DD)]αiXi[JY](6)
将式(5)和式(6)代入式(3),稍作变换,即得优化方程:
根据KKT条件,α中只有部分αi>0,正是与这部分αi相对应的样本点决定了封闭超球体的半径和球心,这些样本点即为支持向量(Support Vector, SV)。
由式(7)获得系数αi后,即可由式(6)获得球心向量a,进一步任选一支持向量 由式(10)得到超球体的半径R。
由式(7)求得的超球体形式单一,且可能范围过大,往往不能准确地反映实际样本数据的分布特征。为此,在上述优化过程中引入核方法[3],即在式(7)中引入核函数:
此时与式(7)对应的优化方程为:
约束条件不变。特别地,选择高斯径向基核函数:
有K(Xi,Xi)=1[JY](14)
结合式(8),式(12)变换为:
选择合适的核函数,可以在数据空间中获得较为理想的数据描述边界。
考虑图1所示的两维一类样本分布,如采用一般的方法进行数据描述操作,所得结果如图1(a)所示,以高斯径向基函数作为核函数,采用核方法进行数据描述操作所得结果如图1(b),显然采用核方法后的结果要合理得多,因为它很紧致,基本上没有多余的空间。此外基于核方法的数据描述方法能降低噪声数据的干扰[6]。
[TPJ1.tif,+45mm。100mm,BP]
[TS(][HT5”H]图1 数据描述方法[TS)]
调整核函数式(13)中的参数σ可得到的如图2所示的非常有趣的一种现象:当σ较大时,所形成的分类区域较大,随着σ的减小,边界越来越紧致,但是当σ减到某一临界点时,分类区域被分割成几个孤立的小块,如图2(c)所示。当然,随着σ的进一步减小,最终会形成每一个样本点对应一个小的区域,也就是说,每一个样本点都是支持向量。
造成图2所示的这种现象的原理其实也比较容易解释,因为σ越小,对应的高斯函数越尖锐,所形成的"小山包"也就小而陡,即辐射能力小。
不难看出,图2(c)可用于聚类分析。
三、区域创新能力的智能评价
(一)区域创新能力评价指标
2001年中国科技发展战略研究小组首次编写了《中国区域创新能力报告》,并建立了如下的中国区域创新能力评价指标体系[7]。
[TPJ3.tif,+118mm。70mm,BP]
[TS(][HT5”H]图3 中国区域创新能力评价指标体系[TS)]
由图3可知,我国区域创新能力评价指标体系主要包括:知识创造、知识获取、企业创新、创新环境、创新绩效等五个方面。这五个方面的指标相互关联、相互耦合,最终导致相关数据呈现出高度的非线性和不确定性,然而由于这些指标在不同的地区均具有可比性,因此可操作性很强。收集的指标数据见表1,用m1-m5分别表示上述5个方面。
由于不同指标之间的数量级相差很大,因此要对原始数据进行标准化。并且为了便于在直角坐标上显示分类效果,要使用因子分析把指标个数降为2维。因子分析过程采用方差最大(Varimax)正交旋转变换。从旋转后因子载荷矩阵可以看出,前两个因子的累计方差贡献率已达91.8%。显然,提取这两个因子作为公共因子已足以表达样本数据的绝大多数信息。这两个因子可以表示为:X=(0.235,0.905,0.947,0.715,0.614)T,X2=(0.944,0.372,0.239,0.629,0.670)T。可以看出:知识获取、企业创新和创新环境3个变量在第一主成分上有高载荷,可将其命名为基础因子;知识创造在第二主成分上有高载荷,反映了区域创新的结果和产出,可将其命名为产出因子。降维后的数据如表2。
(二) 区域创新能力的SVDD评价
图3是表2中各地区企业经营绩效降维数据的图形分布,横坐标对应第一主成分,纵坐标对应第二主成分。
选择高斯径向基核函数
利用式(15),对表2中数据进行聚类分析,所得结果如图3所示。其中 表示第一主成分, 表示第二主成分。
通过对图4作简单分析,可得出如下的聚类结果:上海、北京为第一类,创新能力为超强;广东、江苏、浙江为第二类,创新能力为强;山东、天津为第三类,创新能力为较强;辽宁、福建、重庆、陕西、安徽、湖北、黑龙江、湖南、山西、河北、四川、河南、内蒙古、吉林、江西、广西、海南、新疆为第四类,创新能力为一般;贵州、甘肃、宁夏、云南、青海、西藏为第五类,创新能力为弱。此分类结果与现实非常吻合。
以上基于支持向量数据描述的区域创新能力评价方法,克服了传统定量方法所采用的线性排序的不足。传统线性排序方法在确定指标权重的时候经常依赖于决策者的主观经验,往往未能客观地反映各指标的主次性。而借助SVDD实现各地区创新能力的聚类,不仅更客观地综合了区域创新能力各方面的信息,而且聚类结果更形象更合理。就北京而言,其在全国属于创新能力最强的地区之一。北京市的创新能力表现为政府的高投入,企业的高投入和投入的国际化。并且由于北京市的科技资源丰富,研究开发机构已成为其创新能力的主导力量。但是,北京市的企业创新能力仍然偏低,从而也导致了其整体创新能力要低于上海。北京市今后应努力提高其企业创新能力,加强企业与高校和研究机构的合作,大力发展经济外向度,提高整体创新能力。
四、结语
支持向量机优越的非线性处理能力使得它在众多领域得到了广泛的应用,而数据描述则拓广了支持向量机的应用领域。笔者针对现有区域创新能力评价方法存在的线性分析的不足,提出了区域创新能力的SVDD评价方法,并取得了十分理想的效果。此聚类结果不仅综合了各个体的具体信息,而且能给决策者提供更丰富的参考建议。
参考文献:
[1] 基于因子分析法的中国区域创新能力的评价及比较[J].系统工程.2007,25(2):87-92.
[2] 贺政楚.企业经营绩效的数据包络模型及评价方法研究[J].贵州工业大学学报.2006,8(5):18-22.
[3] K. R. Muller, S. Mika, G. R?tsch, et al. An Introduction to Kernel-Based Learning Algorithms. IEEE Trans. on Neural Networks. 2001,12(2):181-201.
[4] D. Tax, R.Duin. Combining One-class Classifiers. in: J. Kittler, F. Roli (eds.), Multiple Classifier Systems, Proceedings Second International Workshop MCS 2001 (Cambridge, UK, July), Lecture Notes in Computer Science, vol. 2096, Springer Verlag, Berlin, 2001, 299-308.
[5] TAX D, DUN B.Data domain description using support vectors. Proc of the European Symposium on Artifical Neural Neworks. 1999,251-256.
[6] 肖健华.机械设备运行状态特征提取与模式分类中的智能方法研究[J].华中科技大学博士学位论文,2002.[7] 中国科技发展战略研究小组.中国区域创新能力报告(2005~2006)[M].北京:科学出版社.2006:8-11.
(责任编辑:吕洪英)
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”