Nutch-0.9中JE中文分词的实现

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:kpdavid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。
其他文献
粗糙集理论是一种处理模糊和不确定性知识的较新的数学工具,将粗糙集理论引入到异步电动机故障诊断中,对电机的运行状态决策表进行属性约简,有效提取重要属性,降低决策表的冗余性
基于层状弹性理论,利用远离承载板中心的两点路表变形响应反算土基回弹模量。根据半刚性基层沥青路面常用路面结构组合形式,构建土基回弹模量与两点路表弯沉值之间一一对应的数
目的比较三维适形放疗(3DCRT)非小细胞肺癌(NSCLC)三种时间—剂量分割方式的疗效及不良反应。方法选择未接受手术的Ⅲ期NSCLC患者178例,随机分为常规组(2 Gy/次,5次/周,共33~36次)、
信息交换平台是现代电子政务系统的核心部分,在分析电子政务交换平台的功能基础上,给出平台的交换逻辑及功能结构,基于J2EE构建交换平台,用数字证书提高其安全性。应用结果表明,该
采用化学镀工艺制备双复纤维材料,将该材料均匀分散于有机高分子胶粘剂中,在结构上进行设计,制成一定规格的平板试样,并进行电磁参数和反射率的测量。通过对测量所的数据的分
2008年10月~2009年4月,我院对15例膝关节伸直性僵硬患者行关节镜下膝关节粘连松解术治疗,经术后康复锻炼及护理,取得满意疗效.现报告如下. 临床资料: 15例患者中,男7例、女8