论文部分内容阅读
模式识别研究的进程间接地推动了线上智能教育系统的发展。在针对数学学习的线上智能判卷这一应用中,由于答案有效的判分点往往在数学公式上,如何准确有效地识别出学生的手写答案是本文所要解决的重点问题。结合线上系统可以以题目为单位传输答案笔序流文件作为识别源文件的特性,项目先后研究了大量的机器学习算法用于完成识别系统的设计。研究中发现,对单字切分质量直接影响到了后续单字识别的准确性,而且用于单字识别的CNNs需要识别的文字类别越少识别效果越精确。所以提升单字切分的准确性以及尽可能地分离出手写体答案中的数学符号成为了降低对字段文字整体识别错误率的改进方案。系统需求的分割算法应具备如下两个功能:第一:将答题样本中的描述性语言与数学公式进行分离;第二:对被分离出的语段进行单字切分。对应新的需求,本文就两个思路提出了两种不同的切分法案:方案一量化了汉字笔画和数学符号笔画之间的差异,并使用规则对笔画进行分组,通过对笔画组的识别对组合打分并利用维特比算法思想选取最佳组合序列作为分组结果输出。针对汉字特性和数学符号特性的方案又有两种实现,分别是依照数学符号特性对笔画进行排除的实现方式和依照汉字特性对笔画进行候选的实现方式。方案二基于特征学习的分割方法遵照从宏观上对答案的汉字和数学公式进行分区的思想,在无监督的环境下训练用于抽取字段特征的卷积自编码网络,训练完成以后,分别抽取字段中数学公式和汉字的特征对SVM进行训练。该方案首先通过半自动的机器学习方法对字段进行划分,而后再利用普通段分割方法对不同区域进行单字切分。在保证字段分割准确性的基础上,对识别优化工作集中在研究如何实现并改进CNNs结构和训练方式进而提升单字识别正确率之上。实验表明,分别针对常用汉字和数学符号训练对应的识别引擎有利于降低相似符号间的识别错率,进而提升整体的识别效率。且通过规格判定和机器学习的组合算法对字符段进行中英文预切分是可行的,该方法在经过改进和调试可以实现并提升对手写体数学公式文本化的正确率。