Nutch0.9中二分法中文分词的实现

来源 :计算机时代 | 被引量 : 0次 | 上传用户:zhou414663000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询。Nutch0.9较好地处理了英文分词,但对中文分词处理还不够完善。文章介绍了在Nutch0.9中实现索引及检索的二分法,提出了改进中文分词的方法。
其他文献
医疗保险费用结算管理是医保管理机构对医院实行费用控制、监督不合理医疗费用支出、规范医疗服务行为、强化医疗服务质量和保证基金收支平衡的必要手段.目前,浙江省省、市医
应我国卫生部合作医疗管理中心的邀请,2005年3月19日上午,日本生命保险基础研究所研究员沙银华与卫生部卫生经济研究所的部分专家就如何借鉴日本经验,建立中国农民养老保险制
出露于秦岭、祁连造山带结合部位的王家岔石英闪长岩体,侵入于变质基底陇山岩群之中。岩石学、岩石化学、地球化学特征显示石英闪长岩侵入体具有俯冲花岗岩特征。利用LA-ICPMS(激光剥蚀等离子体质谱)测年技术,对石英闪长岩进行单颗粒锆石微区U-Pb同位素测定,获得加权平均年龄为(454.7±1.7)Ma,代表了岩石的形成年龄。这一新的成果资料,对研究秦祁结合部位早古生代构造演化、造山过程及秦、祁造山带的
随着社会经济的发展、卫生"三项改革"的深入和医疗市场竞争的加剧,社会上"看病难、看病贵"的呼声日高,对现行医院成本核算制度提出了严峻的挑战.构建符合医院经营管理需求,又
在我国加人WTO的背景下,随着我国对外资医院的逐渐开放,以及多层次、多种所有制医疗机构的不断涌现,决定医院生死存亡的不仅是市场竞争,而且还有越来越激烈的人才竞争.如何吸
为了研究钻孔雷达对金属矿的响应特征,利用时域有限差分法(FDTD)对钻孔雷达探测进行了数值模拟。通过对不同形态的金属矿体,包括等球状体、板状体和一个实际矿体的模拟,得到大
介绍了一种在MFC中设计报表的方法:将各种报表共同的功能集中在一起,建立一个打印架构,在这个架构上设计报表,报表就具有了该架构的功能。文中也列出了关键的源代码。
摘要:首先根据体检中心的历史数据对体检状况进行定量分析研究;再从体检的“硬环境”、“软环境”以及信息化建设等方面提出改进策略;最终设计出基于信息流的体检状况定量分析流程,构建出基础统计分析模型,并设计了体检状况定量分析信息系统。该系统对提高体检服务质量和效率作用明显。  关键词:体检;信息流;定量分析;分析系统
协作医疗服务模式是建立分级诊疗的重要基础,是实现患者有序就医、优化医疗资源配置的重要抓手。为更好地探索分级诊疗模式,2014年,国家卫生计生委卫生发展研究中心选择江苏
[目的]了解广西壮族自治区市、县、乡、村四级医疗机构服务能力,为加强基层医疗机构服务能力建设,推进分级诊疗制度提出建议。[方法]采用描述性统计分析方法分析2013年广西14个