【摘 要】
:
当前IKAnalyzer(IK)和ICTCLAS(IC)是主流的中文分词算法。文中首先通过理论对比二者在单机环境下的性能,然后使用Hadoop集群、Hadoop分布式文件管理系统(HDFS)和并行处理大数据集的Map Reduce组成的框架,利用优化后的算法,通过大量的实验对二者在分布式环境下处理大数据集的表现做出比较。
【机 构】
:
天津工业大学计算机科学与软件学院 天津 300387
论文部分内容阅读
当前IKAnalyzer(IK)和ICTCLAS(IC)是主流的中文分词算法。文中首先通过理论对比二者在单机环境下的性能,然后使用Hadoop集群、Hadoop分布式文件管理系统(HDFS)和并行处理大数据集的Map Reduce组成的框架,利用优化后的算法,通过大量的实验对二者在分布式环境下处理大数据集的表现做出比较。
其他文献
有不少父母晚上哄孩子入睡时,为图省事,就让孩子含着奶嘴入睡,这种由于婴儿睡眠时不断吸吮奶嘴造成的龋齿,在医学上称为奶嘴龋.rn奶嘴龋是如何形成的?由于夜间婴幼儿唾液分泌
目的通过观察激素对胸腺细胞凋亡及Fas表达的影响,探讨糖皮质激素、雌激素、甲状腺素在重症肌无力(MG)发生、发展和治疗中的作用.方法用流式细胞术分析胸腺细胞Fas、CD4和CD8
一种导航接收机中检测观测量有效性的方法,主要包括:S1、计算信号的载噪比;S2、判断载波跟踪的稳定性;S3、在每一历元提取载波跟踪环的载波多普勒频率观测量以及码跟踪环的伪
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
本文以一个生产安全受控系统的开发为例,讨论了软件体系结构风格及其应用,首先介绍了通用架构风格,然后根据炼厂规模、工作性质、人员类型的特点,合理分析并选择了架构风格,从总体结构上满足需求,系统主体基于服务的分布式架构风格,在服务子系统中使用B/S、分层结构风格,在PDA子系统采用事件驱动风格,有效地指导系统的设计和开发,降低了系统的维护成本,提高了系统的可重用性。最后分析了实施效果和不足之处,以及改
从字面上看,急性而短暂的精神病性障碍确实不那么令人讨厌.虽然是精神病,但起病急,病程又短,就如同做了一个噩梦.噩梦醒来是早晨,有惊无险.最重要的是,有了这个疾病,还可以免
一种用于组合导航半实物仿真的北斗数据建模方法,有六大步骤:一、将惯导/北斗组合系统安装到载体上并上电启动;二、装订初始参数至导航计算机;三、载体静止,惯导进行5分钟静
在电视新闻制作中利用手机、家用摄像机以及区县回传的媒体资源越来越丰富。如何将多种途径获得的新闻内容安全的采用,将各种病毒的威胁拒之门外,则成为了当前高清新闻制播系统安全的重点。本文对重庆广播电视集团文件交互系统进行了介绍,重点分析了文件交互系统的文件引入子系统的实现。
通过远程控制软件介绍计算机远程控制的关键技术。在计算机普及速度加快的今天,计算机远程技术得到迅猛发展,研究计算机远程控制的应用,推动其推广和应用。本文论述计算机远程控制的应用,旨在为同行提供一些参考。
对女人而言,离婚,首先对孩子不好,这是多数女性要考虑的问题,可是不离呢,对自己伤害又大,每天看着让自己讨厌的男人,心堵.怎么办呢?每天在挣扎中渡过,不知道如何是好.rn我一