Hadoop云平台下Nutch中文分词的研究与实现

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:potato_212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于GoogleGFS和MapReduce的开源云平台.利用Nutch和Ha—doop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IKAnalyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IKAnalyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IKAnalyzer的中文分词效果很符合
其他文献
娇媚且冷漠的主人公黛西是菲茨杰拉德的小说《了不起的盖茨比》中塑造的一个从梦幻少女到与金钱社会融合进而蜕变成为物质至上的邪恶时风的女性代表。本文试析黛西形象的蜕变
现有的基于网的服务适配方法主要存在三个问题:需要借助Petri网的状态可达图来产生或验证服务适配器,这可能导致状态空间爆炸问题;都没有综合考虑语义层上的适配问题,仅能半
在当今大学生一方面困惑和远离文学阅读,一方面人文素养又有待提高的背景下,应该大力倡导经典文学阅读,以塑造大学生健康人格,提升大学生审美素养,培养大学生的创造性思维能
随着云计算的发展,互联网上涌现出越来越多的功能相同但服务质量(QoS)不同的Web服务.基于服务质量的服务推荐,旨在从这些等功能服务中挑选出满足用户服务质量需求的服务,已成
现实世界中新兴应用的快速发展导致各类数据的急剧增加,传统的数据挖掘模式已无法满足海量数据的需要,因此,本文提出一种基于动态云模型的树数据挖掘算法,以解决大规模树数据
在互联网环境中如何对分布、自治的服务进行有序化组织是一个挑战性问题.传统服务计算环境对服务的关系缺乏分析和有效管理,用户在构建应用时难以发现满足自己需求的服务.本
本文梳理了浪漫主义作为文学批评的术语,从二十世纪初引入中国以来,在中国古典文学和近现代文学研究中的流布,分析了浪漫主义在中国文学批评中误用的表现和原因,指明政治原因
复合事件探测是RFID事件处理的核心,本文对其中的非自发事件探测技术进行了深入研究,提出一种后继事件驱动的非自发事件探测方法 SD-EventD:SD-EventD将查询树中的非自发操作上提,与其父节点操作进行语义融合,直至最近的双目运算父节点;仅为双目运算符设置单队列,并基于单队列的后继事件驱动进行双目运算的语义探测;针对融合后的双目运算,给出了基于操作符语义的语义探测方法,即出入队规则.本文详
接到请求时,如何快速准确地查找满足用户需求的服务是服务发现的目的所在.现有的服务发现方法大都通过对服务功能属性的匹配计算来进行服务查找,对服务的过程模型并没有进行