论文部分内容阅读
网络书写纹是指用户在网络文字中留下的具有独特写作风格(如用词习惯、语法结构等)的特征集合。网络书写纹就像人的指纹一样,是可以标记作者写作特征的独一无二的标识符。随着研究的深入,作者数量增加,需要处理的总体数据规模也相应增加,另外,研究中还发现,在程序运行过程中,计算机的内存、CPU等资源并没有得到充分的利用。本文尝试对网络书写纹识别研究中的数据处理关键算法并行化,以期能够充分利用计算机资源,提高数据处理的效率。Ngram是指给定一个序列的文本,根据N值选择等长或变长的连续子序列。研究证明,基于Ngram特征的抽取是构建网络书写纹个体特征集的重要技术,提高数据处理效率是Ngram特征抽取过程需要解决的重要内容。本文设计Hadoop-Ngram算法,并在Hadoop集群上实现,实验结果表明,相对未并行化的Ngram特征抽取,Hadoop-Ngram在文本数据的处理效率上有所提升,同时,CPU、内存等资源的利用率也有所提高,计算机资源得到较充分的使用。在实验中,还通过配置Hadoop通用参数选项来比较数据的处理效率,实验证明,根据处理任务的规模和特点灵活的配置Hadoop通用参数,可以使算法的运行效率进一步提高。基于特征选择的集成学习(简称集成特征选择),是构建网络书写纹分类模型的重要技术,它首先对特征集合进行选择,去除冗余和无效特征,然后按照一定的划分算法对特征集进行划分,将划分好的特征子集分配到个体分类器,由个体分类器处理特征子集,最后将各个体分类器的结果汇总得到分类模型或分类结果。在利用集成特征选择构建分类模型的过程中也面临数据量增加,数据处理效率不理想的问题。基于此,本文设计基于MapReduce的集成特征选择算法Hadoop_F_Ensemble。实验结果表明,Hadoop_F_Ensemble执行时分类模型的构建效率也有所提高,系统资源也能得到较充分的利用,通过Hadoop通用参数选项的调整,实现的效果会更加良好。这说明,将MapReduce应用于网络书写纹识别研究是有意义的。