基于支撑向量机回归的接警量预测与比较

来源 :软件 | 被引量 : 0次 | 上传用户:oklizheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文围绕110接处警实战应用需求,重点讨论了支撑向量机回归模型,进行了数据探测和评估。对三种常用的回归算法(线性回归、神經网络回归和支撑向量机回归)在建模效果方面进行比较,得出了结论。
  关键字:支撑向量机;回归;模型;预测
  中图分类号:TK264 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.07.028
  本文著录格式:[1]高家明,薛京生,肖涛.基于支撑向量机回归的接警量预测与比较[J].软件.2013.34(7):77-80
  1 引言
  1963年Vapnik在解决模式识别问题时首次提出了支持向量方法。这种方法从训练集中选择一组特征子集,使得对特征子集的划分等价于对整个数据集的划分,这组特征子集就被称为支持向量(SV)。1971年Kimeldorf提出使用线性不等约束重新构造SV的核空间,解决了部分线性不可分问题。1990年Grace、Boser和Vapnik等人开始对支撑向量机(support vector machine,SVM)进行研究。1995年 Vapnik正式提出了统计学习理论。
  2 支撑向量机回归
  近年来,支撑向量机在回归算法的研究方面表现出了很好的性能。支撑向量机回归算法不仅被成功地应用于时间序列的预测研究,其他诸如在非线性建模与预测、优化控制等方面的研究也有很大的进展。
  分类问题着眼于对预测结果进行定性分析,回归问题则着眼于对预测结果进行定量分析。通过样本点集的适当变换,回归问题可以转化为分类问题。基于结构风险最小化思想的支撑向量机方法虽然是从解决分类问题发展起来,但同样可以应用于对回归问题的求解。目前比较成熟的支撑向量机回归(SVR)算法包括支撑向量机回归算法()、支撑向量机回归算法()等。下面介绍支撑向量机理论在回归问题中的应用问题。
  2.1 算法原理
  支撑向量机回归算法采用了不敏感损失函数,即当点的观察值与预测值之差不超过事先给定的时,则认为该点的预测值是无损失的,如图1所示(损失函数只计算阴影区以外的样本点)。
  2.2 算法要点
  由于SVM对偶问题的求解过程相当于求解一个线性约束的二次规划问题(QP),经典的解法有积极方集法、对偶方法、内点算法等。由于需要计算和存储核函数矩阵,其大小与训练样本数的平方相关,因此,随着样本数目的增多,所需要的内存也就增大。例如,当样本数目超过4000时,存储核函数矩阵需要128MB内存。SVM在二次型寻优过程中要进行大量的矩阵运算,多数情况下,寻优算法是占用算法时间的主要部分。通常,训练算法改进的思路将把要求解的问题分成许多子问题,然后通过反复求解子问题来求得最终的解。目前,比较著名的SVM训练算法包括SVMLight为代表的分解算法、Platt的SMO算法、Kerrthi的近邻算法及JAK.suykens的最小二乘法支撑向量机LS-SVM算法等。这些算法在支持大数据量训练样本、提高训练速度等方面较经典的二次规划算法有了明显提高。
  3 应用支撑向量机回归模型预测接警量
  3.1 数据探测
  我们选取某大城市2012年1月1日至2012年7月24日全市110接警数据,按照“周”分组,按照“月”统计接警量,得到数据探测结果,如图2所示:
  3.2 流程分析
  对于基于支撑向量机回归的每日接警量预测模型,按照如下步骤分析:
  1、数据字段拆分:确定参与建模的字段。为确保得到较好的预测模型,必须确定参与建模的字段。根据分析,我们的目的是对每日接警量进行预测分析,遂按照“月”、“周”分别建立时间字段。
  2、异常数据处理:对异常数据进行预处理。由于整个数据序列中难免有异常情况出现,异常数据又往往直接影响建模精度。所以在建模前必须对异常数据进行检测,判定其异常点类型,并采取相应的异常处理机制对异常数据进行处理,以减小其对整个序列的干扰。
  3、正则化:为确保得到较好的支撑向量机模型,根据算法特点,需要对序列数据进行标准化处理。
  4、回归算法建模:利用支撑向量机回归算法建立每日接警量的预测模型。
  5、模型测试评估:利用开发的“支撑向量机测试算法”及2012年7月25日至2012年7月31日全市110接警测试数据,对模型进行测试评估。
  3.3 应用建模
  基于2012年1月1日至7月24日全市110接警数据,利用自行开发的“支撑向量机测试算法”建立“每日接警量”预测模型并进行分析。建模设置界面分别如图3、图4所示:
  3.4 模型评估
  根据支撑向量机回归模型建立的“每日接警量”预测模型和接警量测试数据,对该模型进行评估,结果如表1所示。
  3.5 测试结果分析
  4.2 神经网络回归
  5 结论
  实验数据表明,支撑向量机回归比线性回归、神经网络回归在接警量预测建模效果方面有更好的应用指标,其“平均误差率”最小,仅为2.64%。
  参考文献
  [1]史忠植,知识发现[M],清华大学出版社,2002年
  [2]刘刚,数据挖掘技术与分类算法研究[D],解放军信息工程大学,2004年
  [3]毛国君等,数据挖掘原理与算法,清华大学出版社[M],2005年,第1版
  [4]杨静,张健沛,刘大昕,基于多支持向量机分类器的增量学习算法研究[J],哈尔滨工程大学学报[J],2006年第1期
  [5]徐红敏,王海英,梁瑾,黄帅,支持向量机回归算法及其应用,北京石油化工学院学报[J],2010年第1期
  [6]李凯,黄厚宽,支持向量机增量学习算法研究,北方交通大学学报[J],2003年第5期
其他文献
摘 要: 随着中国社会经济、科技纵深发展对于人才需求的细化和提高,高校传统专业人才培养模式的弱点逐渐暴露出来,尤其是地方新建本科院校的大学毕业生,相对于其他院校的毕业生,专业水平较低、适应能力较弱、创新能力较弱,在人才市场上竞争不强。应用技术型大学要谋求发展,必须转型,培养出更多的优秀应用技术型人才以适应市场需求,该类型院校中的英语专业教学受到更高的挑战。英语专业该如何制定专业的人才培养模式——专
神华集团作为世界500强大型企业集团.以“五型”企业建设为目标.不断丰富坚持走新型工业化道路、坚持推进安全质量标准化建设、坚持依靠科技进步、坚持保障安全投入,强化安全责
[目的]观察3M透明敷贴联合抗压凝胶垫在俯卧位脊柱矫形手术患者中预防压疮的应用效果。[方法]将120例俯卧位脊柱矫形手术患者随机分为2组,其中对照组60例患者仅使用抗压凝胶垫
本文对海洋区域地质调查中用于地震资料解释的人机交互解释系统所存在的数据交互问题进行了分析,并对Samba服务器做了深入的研究,最后在人机交互解释系统中实现了Samba服务器的
在论述RFID技术和ZigBee无线传感器网络技术的基础上,提出了在传感器上附带RFID标签的方法,解决了ZigBee无线传感器网络与RFID技术的融合问题,实现了基于RFID传感器网络技术在农产品质量监测中应用的目的。以低成本的RFID标签融合RFID技术与ZigBee无线传感器网络技术,对物联网的发展具有技术应用价值。
利民煤焦公司是神华乌海能源公司下属全资子公司,公司现有设计年生产能力60万吨矿井、240万吨洗煤厂、60万吨焦化厂以及2×6MW焦炉煤气发电厂各一座,形成了煤、焦、化、
集成测试是面向对象软件测试中的重要环节。UML不仅在软件分析领域具有重要作用,同时是软件测试的有力依据。在本文中,提出了一种以UML类图为基础的面向对象软件集成测试的测
[目的]了解产科实施三班制排班(APN排班)前后患者对护理服务满意度的影响。[方法]选择实施三班制排班前200例产妇为对照组,实施三班制排班后200例产妇为观察组,通过问卷调查的形
[目的]探讨高血压痛各中医证型与载脂蛋白变化的相关性。[方法]选取200例原发性高血压病患者,设计调查表,准确记录临床资料,并选取40名健康体检者作为正常对照组。对观察病例进
坚毅、果敢、不服输、不畏难,这是韩宝柱身上最显著的品格。多年来,韩宝柱凭着自己对矿山的热情和对理想的执着,迅速成长为一名优秀的现场管理人员,带领“尖兵班组”攻坚克难,为队