基于卷积神经网络和KNN算法的笔迹性别识别

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:bear81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:基于笔迹的性别识别在取证分析中具有重要意义。但是目前的笔迹性别识别的智能算法大多是在笔迹空间进行直接分类,笔迹中包含大量无意义信息,分类准确率不高。本文通过将笔迹空间转化为笔迹相似度空间,通过Mnist数据集训练卷积神经网络得到数字识别模型,然后用自制带性别标签的数据集进行测试并计算得到表现字迹风格的两种数据集。进一步基于KNN算法,对字迹进行性别识别,综合两种数据集得到的预测结果,测试准确度能达到74%。
  关键词:卷积神经网络  KNN算法  性别识别  笔迹
  中图分类号:TP391.41                      文献标识码:A                  文章编号:1674-098X(2020)09(a)-0112-04
  Abstract:Gender recognition based on handwriting is of great significance in forensic analysis. However, the current intelligent algorithm of handwriting gender recognition mostly classifies directly in the handwriting space, which contains a lot of meaningless information, and the classification accuracy is not high. In this paper, we convert the handwriting space into the handwriting similar space, by training the convolutional neural network in the Mnist data set to obtain the digital recognition model, and then test the self-made data set with gender label and calculate the two data sets that show the handwriting style. Furthermore, based on KNN algorithm, gender recognition of handwriting was carried out, and the test accuracy reached 74% based on the prediction results obtained from the two data sets.
  Key Words: Convolutional neural network; KNN algorithm; Gender recognition; Handwriting
  对笔迹的性别识别在调查取证分析中有重要的意义[1],笔迹中包含的因素主要可以分为两类,一是对已有字体进行模仿,二是在模仿过程中形成个人的风格。理论上来说每个人的笔迹都有个人不同的风格,因此从笔迹中获得各种信息是理论可行的,一些专家学者提出了笔迹的动态特征研究方法[2]。目前,大部分对于笔迹的分析都是基于图像识别的原理,通过卷积神经网络对图像的特征值进行识别和操作,例如基于梯度的识别算法GLBP[3],准确率可以达到70%,基于多层卷积网络的模式识别算法,准确率可以达到71.9%。直接对笔迹图片进行识别操作的方法,造成算法的应用空间范围在整个图片上均匀分布,计算过程中输入数据的复杂度较大,计算结果的准确度不高。另一方面,由于缺乏统一规格的中文离线签名数据库,在训练过程中,很难充分训练[4]。
  本文提出了一种在识别之前进行空间转换的思路,将笔迹图片先行识别,利用训练好的卷积神经网络得到笔迹图片对于真值的相似度向量集,再利用KNN算法预测笔迹的性别,在准确度上有较大的提升。
  1  相似度向量的提取
  为了提取笔迹的相似度,我们利用Mnist数据集训练一个4层卷积神经网络,然后利用此网络计算自制数据集训练组对照真值的相似度。
  1.1 用于识别数字的卷积神经网络
  Mnist数据集由6万个训练样本和1万个测试样本组成,每个样本为单张手写数字图片和对应的数字标签,规格为28*28的灰度。卷积网络由两个卷积层两个池化层和两个全连接层组成。本文使用基于Tensorflow2.0的keras框架,搭建计算模型,激活函数和损失函数选取如表1。
  模型的最終输出为10位One-hot形式,对训练得出的网络利用测试样本进行检测,数字识别准确率达到97.8%,将此模型当作标准网络计算相似度向量。
  1.2 差异度与相似度向量的计算
  由于Mnist数据集中,没有性别标签,因此我们需要自建数据集获得字迹和性别之间的关系,每个样本必须是同一个人的字迹,包括0~9十张图片和对应的数字标签。利用已经训练好的网络辨识图片得出Ont-hot类型的结果Aij,Rij∈10*10。我们把训练的结果写成一个10*10的矩阵形式,其中Rij表示第i张图片训练的One-hot形式的结果上第j个位的输出。然后将A减去单位矩阵I得到结果矩阵R,由于R的每一个元素都代表着样本测试距离Mnist字迹风格的偏移,因此R代表了样本字迹的风格。
  R中每一列表示书写数字的字迹对某一个数字的倾向,因此将R纵向都加得出差异度向量M,Mj=Σi|Rij|。   R中每一行表示书写某个数字时与Mnist字迹相比的偏差,因此将R横向相加得出相似度向量N,Ni=Σj|Rij|。
  研究中,把每一人的字迹与对应的性别标签当作一个样本,为了保证样本对于性别的敏感性,我们选取了500组样本,300组作为训练集,200组作为测试集,两种性别各半。为了防止年龄文化程度等因素的干扰,我们直接从同一年级的学生作业中扫描得出样本。
  2  基于KNN的字迹性别识别
  KNN网络是一种K近邻算法,当训练样本较多时,有很好的准确度,我们分别从字迹的错误倾向和字迹相似度两个方面,利用KNN网络对字迹进行性别识别。其中,度量空间我们选用欧氏距离,并在K近邻中取平均权重。
  2.1 实验结果
  在计算中,由于我们选取了欧式距离和平均权重,K近邻算法只有一个超参数K,我们简单的进行穷举式的超参数优化,计算不同的K值情况下,性别的预测结果。利用差异度向量样本集进行训练和测试,得到的最高准确率在K=12时出现,为68%;利用相似度向量样本集进行训练和测试,得到的最高准确率在K=11时出现,为70%。将两种测试集的预测结果加权平均到一起,得到的最高准确率在K=11时出现,为70%,准确度随K的变化如图1。
  2.2 优化分析
  将两种测试集的测试结果平均到一起,预测的结果并没有显著改变,说明差异度向量和相似度向量中的每一个都可以完全代表样本的字迹风格,因此单独使用一个测试集,经过优化就可以达到相同的准确效果。
  在这里,我们猜测,某些人的字迹有明显的性别倾向,如果使用这些人的字迹作为训练集,应该能更好表示字迹的性别特征。基于此,我们利用循环的将每个样本放入测试集进行计算,将预测成功比率高的300个样本当作新的训练集,同时引入额外制作的测试集(样本数量300,性别比1:1),同样利用KNN,发现准确率在K=10时达到了74%,比基于局部特征的算法[5]高出4个百分点,比基于 GMM 的算法高出6.43个百分点。准确度随K的变化如图2。
  由此可见,有些字迹的风格有明显的性别倾向,而有些字迹的风格与性别关系不大,因此选用随性别变化明显的字迹作为训练集更能体现字迹的性别倾向,识别的效果更好,验证了我们的猜测。
  2.3 算法进化
  在实际應用中,这样选取样本的代价过高,因此我们使用一种算法进化的方式。首先我们随机选取300个样本作为训练集,每加入一个测试集,若预测成功,则以一定概率p代替据此测试样本距离最远的训练样本,被代替的样本加入测试集的末尾,循环迭代。本文最终可以达到2.2中得到的准确度,当p=0.15时,迭代次数最小,为12000左右,本质上是一种随机梯度下降的算法。
  3  结语
  目前对于笔迹的性别识别的研究,准确度依然无法达到一个令人满意的程度。可能由于一部分人的笔迹所包含的特征与性别的关系不大,而与其他一些诸如体质、性格等因素相关。因此基于卷积神经网络的特征提取和KNN的模式识别,在笔迹的性别识别中有很大的优越性。但是由于KNN算法的限制,训练样本数量不能过大,因此在训练集中笔迹的风格可能不完备,无法识别测试样本的某些特征,造成特征的缺失和疏漏,一定程度影响了准确率。因此,需要继续优化算法对特征的识别,提高准确率。
  参考文献
  [1] 刘维达,卜巍,邬向前.基于深度学习的笔迹性别识别[J].智能计算机与应用,2017,7(3):135-137.
  [2] 陈晓红.司法笔迹鉴定[M].北京:科学出版社,2018.
  [3] Nesrine Bouadjenek, Hassiba Nemmour, Youcef Chibani. Age, gender and handedness prediction from handwriting using gradient features[C]// International Conference on Document Analysis & Recognition. IEEE, 2015.
  [4] 贾昊丽,程永强,李志磊.区间模糊相似性度量的离线签名验证[J].计算机工程与应用,2019,55(18):122-126.
  [5] N Bouadjenek, H Nemmour, Y Chibani. Local descriptors to improve off-line handwriting-based gender prediction[C]// Soft Computing & Pattern Recognition. IEEE, 2015.
  [6] 殷亚博,杨文忠,杨慧婷,等.基于卷积神经网络和KNN的短文本分类算法研究[J].计算机工程,2018,44(7):193-198.
其他文献
挖掘机在施工建设中作为必不可少的机械设备,相关企业应做好挖掘机维修措施改进与安全管理工作,以保障挖掘机正常使用。本文分析了挖掘机维修中常见问题,以及从定期对挖掘机
我国水体污染情况日益严重,其中饮用水中氟离子的污染情况尤为突出,人体摄入过量氟时,将会导致身体骨骼疾病。如今水体除氟方法主要包含絮凝沉淀法、离子交换法、膜处理法和
研究了基于两模光纤和相位敏感光时域反射计(φ-OTDR)的振动检测系统。两模光纤支撑LP01模和LP11模稳定传输。实验结果表明,LP01模和LP11模的后向瑞利散射信号经相干检测和正
随着"工业2025战略"的提出,我国在精密机械制造加工领域不断加强科学技术投入,研发出了一批高质量的机械制造加工设备。为了保证机械设备的正常运行,需要做好维修和保养工作,
针对某轮主机燃烧不良问题,本文详细记录了整个处理过程,最初的故障现象是主机燃烧室部件脏、排温高、燃烧不良,清洁燃烧室部件后得到一定程度的缓解。但是在维修分油机的故
摘 要:通过对城市放射性废物库现有安防系统运行存在的问题进行分析,并对照《城市放射性废物库安全防范系统要求》(HAD802/01-2017)有关要求,探索废物库安防系统升级改造设计方案。通过建设视频监控系统、入侵报警系统、出入口控制系统、动环监控系统等使废物库安防系统更加完善、智能、实用,并满足《城市放射性废物库安全防范系统要求》(HAD802/01-2017)有关要求。  关键词:放射性废物库
固井作业在油田勘探与开发过程中发挥重要的作用,固井质量不仅影响油气井后续井下作业,还影响油气井使用寿命,必须予以重视。固井设备工作的稳定性对于保障固井质量意义重大,
CTCS-2+ATO列控系统具备站台门与车门自动开关、精确停车、自动驾驶等功能,但该列控系统在具体应用中很容易出现设备问题,直接威胁动车的安全稳定运行。基于此,本文将围绕CTC
此次在电离辐射技术的应用下,开展水环境保护策略的研究。分析水体中微生物物质对水环境造成的威胁,安装电子束缚照废水处理装置,抑制微生物的生长,同时设计装置工作模式,抑
政府监管部门想要对城市交通轨道运行系统进行合理有效的监督,或是运营单位想要提高自己的安全管理水平,就需要对城市交通轨道的运行管理系统做出合理有效的评价机制。当前,