一种改进的基于支持向量机的手写数字识别技术研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:houtou27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于数据的机器学习在现代智能技术中发挥着越来越重要的作用,它所要研究的主要问题是从海量已知数据信息中寻找规律,并利用这些规律对未知数据信息进行尽可能准确地预测与估计。统计学方法是我们面对海量数据信息而缺乏具体理论模型时最基本的手段,传统的机器学习方法都是以统计学作为理论基础的。由于传统统计学是建立在样本数目趋于无穷大以及经验风险最小化原则基础之上的,因此无论是从理论上还是从应用上它都具有某种先天上的局限性。为了进一步提高机器学习方法解决实际问题的能力,统计学习理论应运而生,它是专门针对有限样本尤其是小样本而设计的,同时在经验风险最小化原则的基础上提出了一种新的风险评估准则——结构风险最小化原则,使得与之相关的理论得到了不断发展和完善,而作为统计学习理论具体实现方法的支持向量机则越来越受到广泛的重视。   支持向量机是二十世纪九十年代中期由Vapnik教授领导的研究小组提出的一种新的智能机器,它是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。由于具有较完备的理论基础和较好的学习性能,支持向量机能很好地解决小样本、非线性、高维数和局部极小点等实际问题,因而成为机器学习理论的研究热点,并在很多领域都得到了成功的应用,如模式识别、回归估计、函数逼近等。   手写数字识别是支持向量机在实际中的第一个应用,它所要研究的主要问题是:如何利用计算机自动识别人手写在纸张或其它介质上的阿拉伯数字。手写数字的识别过程主要包括图像预处理、特征提取和分类器识别三个阶段,在图像预处理阶段主要进行的是图像的灰度化、二值化、定位和切分操作,在特征提取阶段主要进行的是手写数字字符特征值的提取操作,在分类器识别阶段主要进行的是将特征提取阶段提取到的特征值送入特定的分类器进行预测识别的操作。目前,手写数字识别在各个领域都有着十分广泛的应用,对其相关技术的研究必然会推动整个社会经济不断向前发展。   本文第一章主要讲述了统计学习理论和支持向量机的发展历程,介绍了支持向量机的理论背景、研究现状以及手写数字识别的研究方向和应用前景;第二章详细介绍了统计学习理论。支持向量机是建立在统计学习理论的基础上的,统计学习理论是目前针对小样本统计估计和预测学习的最佳理论,而支持向量机是统计学习理论的最佳实现方法;第三章讨论了支持向量机的基本理论和几种支持向量机的常用算法。首先根据训练样本集为线性可分和非线性可分两种情况对支持向量机进行分析,然后从分块算法、分解算法和序列最小最优化算法三方面来具体讲述支持向量机算法,最后对几种变形的支持向量机进行比较;第四章阐述了手写数字识别的理论和方法,主要包括识别技术分析、样本库的选择、识别系统性能评价以及图像的预处理、特征提取、分类器的选择等;第五章将一种改进的特征提取方法与支持向量机相结合进行手写数字识别技术研究;第六章讲述对自己工作的总结以及对今后工作的展望。   本文通过对手写数字识别技术的分析与比较,提出了一种改进的基于21维特征向量的特征提取方法与支持向量机相结合的手写数字识别技术,并使用该技术开发了一套手写数字识别软件对手写数字样本图片进行实验,以进一步验证系统的识别率和推广能力。基于21维特征向量的特征提取方法的基本思想是首先将每个经过预处理的数字字符图像平均分成5行3列共15个小区域,将每个小区域中黑色像素的数目与该小区域面积的比值作为特征向量的一个分量,因此共有15维特征向量;然后计算将数字字符图像划分成5行3列的水平方向上的四条直线与垂直方向上的两条直线分别在穿越数字字符图像过程中黑白像素的变化次数,并依次将该值与六条直线的总穿越次数的比值作为另外6个特征向量的分量,构成21维特征向量。实验结果表明:这种改进的基于支持向量机的手写数字识别技术比传统的识别方法具有更高的识别率和更好的推广能力。
其他文献
无线传感器网络(wireless sensor network,WSN)[1]是由部署在监测区域内数量庞大的廉价的微型传感器节点组成,在无线通信系统控制下形成一个多跳的自组织网络。本文对无线传
随着信息技术的发展,音频、视频和其它作品都能以数字形式呈现,对其进行复制传播变得非常容易,从而可能导致大规模的非授权拷贝。而一些秘密信息被隐藏在这些数字作品中得以
随着计算机和网路技术的不断发展,P2P流媒体分发技术也取得了长足进步。相对于传统采用C/S网络架构的流媒体技术而言,P2P流媒体视频分发技术能够更好的均衡网络负载,减少由于
随着小卫星技术的迅速发展,由多颗小卫星组成的卫星星座的应用范围越来越广,它不仅影响着人类的生活方式和生活质量,而且可以增强国家的军事实力,很大程度地影响着一个国家的
随着计算机技术的快速发展和社会需求的急剧增长,GIS的应用越来越广泛,大量特别是海量空间数据的存储和查询成为GIS领域的关键问题。空间数据库是随着GIS的开发和应用而发展起
在中国高等教育文献保障系统(China hcademic Library InformationSystem,简称CALIS)三期项目中的公共检索与资源导航服务体系中,对各种数字图书资源的自动标引及分类是数字
随着GIS应用的社会层面的广度和深度的迅速扩大,出现了许多优秀的GIS软件,它们各具特色,在数据格式、数据处理、数据显示等方面都有其独到之处,被不同的单位、部门应用,因此造成了
随着3G技术的成熟以及网络宽带化的发展趋势,移动通信和互联网技术的融合趋势日趋明朗,移动互联网已成为全球关注的热点。IPv6带动了移动互联网的发展,未来手持终端的功能将
人类的视觉选择注意机制具有高效的关注周围重点事物的能力,当人类面对这个包含浩瀚信息的世界时,扑面而来的是充斥着大量信息的各种场景。在获取过程中,人类并不是被动的接
计划评审技术是对给定项目进行详细科学分析的方法。其目的是为大型的、复杂的项目制定合理的计划,并将其结果用图的形式表示出来,以方便调控人员管理和调度整个施工过程。PE