基于MapReduce的网络书写纹识别关键技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:Silly728
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络书写纹是指用户在网络文字中留下的具有独特写作风格(如用词习惯、语法结构等)的特征集合。网络书写纹就像人的指纹一样,是可以标记作者写作特征的独一无二的标识符。随着研究的深入,作者数量增加,需要处理的总体数据规模也相应增加,另外,研究中还发现,在程序运行过程中,计算机的内存、CPU等资源并没有得到充分的利用。本文尝试对网络书写纹识别研究中的数据处理关键算法并行化,以期能够充分利用计算机资源,提高数据处理的效率。Ngram是指给定一个序列的文本,根据N值选择等长或变长的连续子序列。研究证明,基于Ngram特征的抽取是构建网络书写纹个体特征集的重要技术,提高数据处理效率是Ngram特征抽取过程需要解决的重要内容。本文设计Hadoop-Ngram算法,并在Hadoop集群上实现,实验结果表明,相对未并行化的Ngram特征抽取,Hadoop-Ngram在文本数据的处理效率上有所提升,同时,CPU、内存等资源的利用率也有所提高,计算机资源得到较充分的使用。在实验中,还通过配置Hadoop通用参数选项来比较数据的处理效率,实验证明,根据处理任务的规模和特点灵活的配置Hadoop通用参数,可以使算法的运行效率进一步提高。基于特征选择的集成学习(简称集成特征选择),是构建网络书写纹分类模型的重要技术,它首先对特征集合进行选择,去除冗余和无效特征,然后按照一定的划分算法对特征集进行划分,将划分好的特征子集分配到个体分类器,由个体分类器处理特征子集,最后将各个体分类器的结果汇总得到分类模型或分类结果。在利用集成特征选择构建分类模型的过程中也面临数据量增加,数据处理效率不理想的问题。基于此,本文设计基于MapReduce的集成特征选择算法Hadoop_F_Ensemble。实验结果表明,Hadoop_F_Ensemble执行时分类模型的构建效率也有所提高,系统资源也能得到较充分的利用,通过Hadoop通用参数选项的调整,实现的效果会更加良好。这说明,将MapReduce应用于网络书写纹识别研究是有意义的。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
本文介绍了老龙窝铅矿矿体的地质特征,着重分析了矿床的围岩蚀变特征及矿体的形态和空间分布规律,指出了区域内找寻该类型铅矿的标志是各种方向的蚀变破碎带。为下步矿山建设
进入21世纪以来,中国先后举办了2008年北京奥运会、2010年上海世博会、2011年上海世界游泳锦标赛、深圳世界大学生运动会等一系列具有国际影响力的大型赛会,而这些大型赛会的举
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
通过对河南省第11届运动会男子排球乙组比赛进行技术统计、比较、分析整理,查找河南省少年男排在比赛中运用技术的优势以及存在的问题与薄弱环节,分析总结出强弱队在技术运用上
照片上物品清单:移动硬盘、U盘、课堂讲稿、笔记本、日历记事本、钱包电子烟、电子烟弹、钥匙、宝玉石专业电筒、文稿打印件、白玉牌、眼镜等 Photos on the list of items:
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
城市道路是城市景观工程的重要组成部分.它由路基和路面及一些附属构筑物所构成的.而路基是道路的重要组成部分,它既是道路的主体,又是路面的基础.路基施工的质量的好坏,关系