基于MapReduce的三元N-gram算法的并行化研究

来源 :电子技术应用 | 被引量 : 0次 | 上传用户:haisen888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了基于MapReduce计算模型的三元N-gram并行化算法的思想。MapReduce计算模型中,将运算任务平均分配到m个节点,三元N-gram算法在Map函数部分的主要任务是计算局部字词分别与其前两个字词搭配出现的次数,Reduce函数部分的主要任务是合并Map部分统计字词
其他文献
在现代的计算机课堂教学中,合作学习也是现代创新教学的重要应用策略之一,可以有效地提高学生的学习创新意识。本文通过对合作学习在计算机教学中的应用研究与实践,提出小组合作
【摘 要】在科学技术高度发展的今天,人才的质量和数量成为综合国力的体现,特别是理论知识丰富、专业技能过硬的职业人才,更为社会所青睐。为了使中职生具备更扎实的业务水平,职业高考为他们搭建了深造的平台。提高职业高考的综合录取率,使更多的学生获得深造的机会,以适应社会发展的需要是笔者探讨的内容。  【关键词】提高 职业高考 录取率  要提升职业高考综合录取率,就必须抓好中职生高考备考工作。教师必须
从信息科学和现代管理的观点出发,分析了当前铁路企业安全管理工作的薄弱点和局限性,提出了将事故管理前移为信息管理,强化安全信息分析预测研究工作的基本观点和工作设想,并
3-6岁正是习惯养成的敏感时期,抓住这一时期培养,对幼儿进行文明礼仪教育,使幼儿从小学礼、知礼、懂礼、用礼,将关系到幼儿一生的发展,为培养健全、人格,塑造完整儿童将起到重要作
对小学生英语学习适应性的研究,有助于有效激发小学生学习英语的热情,提高小学生英语学习成绩。本研究从小学生英语学习适应性的特点出发,提出了几点培养小学生英语适应性的建议
雷电对电气设施会产生巨大的破坏作用,为了电气设备免受或减少雷击的可能性,首先应对雷电的物理现象进行充分的了解,通过研究、模拟和测试找出应对措施。瑞典电气化铁路采用1AC1
研究表明,学习者可分为视觉型、听觉型和动觉型。视觉型擅长通过自己读或看来学习,对视觉刺激敏感,习惯从视觉接受学习材料,如景色、相貌、书籍和图片等。这样的学习者喜欢通过自
2007年7月25日,捷克政府批准将国营捷克铁路公司客货运分离并组建独立的捷克铁路货运公司的建议。分离工作预计将于2008年4月进行,届时捷克政府很有可能出售该公司。新组建的捷