NUtch-0.8.1中二分法中文分词的实现

来源 :计算机时代 | 被引量 : 0次 | 上传用户:shliukan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:海量信息在网络上的出现,使搜索网站应运而生,越来越多的搜索工具受到关注。Nutch是一个开源Java实现的搜索引擎,扩展性较好,是人们研究的热点。现今出现的NUtch-0.8.1较好地处理了英文分词,但没有对中文分词进行处理。文章介绍了在NUtch-0.8.1中实现索引及检索的二分法,指出在中文分词上它比原Nutch-0.8.1有了明显的改善。
  关键词:NUtch-0.8.1;二分法;索引;检索
  
  0 引言
  
  随着互联网的飞速发展,海量的信息出现在网络上,为了减少人们搜索信息所用的时间,搜索网站应运而生。除了google,百度外,越来越多的搜索工具出现在网上。例如,Laibin是抓取网页的工具,Lucene是建立索引和检索的工具,这些都是开放源码的搜索引擎,还有News Spider之类个人开发的搜索工具等。
  Nutch是搜索引擎的研究热点,它的出现使得抓取、索引、检索一体化,并且开放源码,可以让研究者通过配置,逐步完善各个模块,从而实现所需的搜索引擎。中文分词是搜索引擎的一个技术关键,分词的好坏直接影响搜索的准确度和效率。Nutch对英文的切分比较完善,但没有中文分词处理。有很多在Nutch中增加中文分词处理的方法,这里介绍二分法中文分词在NUtch-0.8.1中的具体实现。
  
  1 Nutch及中文分词介绍
  
  1.1 Nutch介绍
  Nutch是一个开源Java实现的搜索引擎。Nutch的开源使得任何人都可以了解它的工作机制;Nutch的插件机制使得它的扩展性也比较好,因此吸引了很多的研究者。Nutch是由Lucene发展而来的,但比Lucene多了抓取页面的功能。从架构上,搜索可分为抓取和检索两个部分,索引是这两部分的中介。反向索引在抓取到指定页面后建立,检索时通过搜索反向索引匹配用户输入的关键字,得到用户需要的信息。
  
  1.2 中文分词介绍
  中文分词影响着搜索结果的相关度排序及搜索的效率和准确度,因此好的搜索引擎必须处理好中文分词。现有的中文分词方法有很多,从分词效果来看,可以分为:单字切分,二分法和词库分词。
  单字切分把对象分为单个字,NUtch-0.8.1采用这种方法。此方法较准确,不会有遗漏(这也是很多人用这种方法在Nutch中加入中文分词处理的原因),但冗余较多,效率不高。
  二分法把对象以相邻两字的组合为单位进行分隔,如:武汉科技学院,分词处理后为:
  武汉/汉科,科技,技学/学院。此方法比单字切分效率高。由于Nutch和Lucene属同一作者,Lucene中给出了二分法的类,因此,可以把二分法移植到Nutch中。



其他文献
(杭州职业技术学院信息电子系,浙江 杭州310018)  摘要:软件构件动态适配技术已成为研究的一个重点。文章简述了软件构件动态适配的主要特点,通过对几种软件构件动态适配技术的分析,指出了现有软件构件动态适配方法的不足,并提出了一种新的基于移动Agent的软件构件动态适配方法。该方法从多Agent系统和面向Agent的软件工程的角度进行软件构件动态适配,使适配后的目标系统具有良好的可重用性。  关
期刊
(1.广东药学院医药信息工程学院,广东 广州510006;2.中南大学软件学院)  摘要:介绍了使用J2EE的EJB组件技术设计和开发Session Bean的原理,分析了两种Session Bean的特点,实现了一种有状态Session Bean的开发。  关键词:J2EE;EJB;有状态Session Bean;无状态Session Bean
期刊
(1.咸阳师范学院计算机系,陕西 咸阳712000;2.咸阳师范学院数学系;3.咸阳师范学院图形图像处理研究所)  摘要:为了使企业各部门的数据信息能够很好地互联互通,企业各部门的信息系统就需要进行数据库的转换。文章讨论了在PowerBuilder环境下如何利用数据管道技术实现异质数据库的转换,介绍了数据管道的特点,在一个实例中给出了创建数据管道进行数据迁移的具体实现步骤与主要代码。  关键词:P
期刊
(浙江经济职业技术学院,浙江 杭州310018)  摘要:描述了基于树的遍历技术的VFP通用菜单编程策略。通过记录程序的运行轨迹(也称“路径”),可以用同一表单(Form)展现多级菜单,使菜单页“进退自如”。该策略能适应不同数量的菜单项以及所有层级的菜单展开,并且实现菜单程序与菜单项目描述的分离,从而提高编程效率、程序的适应性和应用系统的扩展性。  关键词:菜单;菜单页面;菜单项;运行轨迹
期刊
(1.苏州大学计算机科学与技术学院,江苏 苏州215006;2.江苏技术师范学院计算机科学与工程学院)  摘要:以三星公司的K9F1208UOB芯片为例,详细介绍了Nand-flash存储器芯片的工作原理以及在$3C2440A平台上应用的软硬件设计过程。  关键词:嵌入式;Nand-flash;$3C2440A;设计
期刊
(浙江工业大学信息工程学院,浙江 杭州310014)  摘要:总结分析了目前《操作系统》课程教学中常用的几种方法,指出了教学中存在的问题,针对性地提出了以Tutorial任务驱动的课程教学方法,并给出一个Tutorial任务设计实例。教学实践结果表明,这种以“任务为主线、教师为主导、学生为主体”的互动式教学方法效果良好。  关键词:操作系统;教学;Tutorial任务;互动
期刊
(1.华侨大学信息学院,福建 泉州362021;2.华侨大学工商管理学院)  摘要:研究了如何在Windows与Linux这两种最流行的操作系统之间进行互操作:在单机情况下,共存于同一机器的Windows与Linux如何互访文件系统,利用模拟器软件运行各操作系统下的应用程序;在网络情况下,运行不同操作系统的计算机如何共享文件与打印机;如何利用虚拟机软件运行另一操作系统下的应用程序。并简要分析比较了
期刊
摘要:针对现有的ORM组件不能实现运行时动态改变数据库结构的不足,文章提出了一种动态数据库的ORM解决方案,该方案从分析设计数据库的基本原则入手,给出了一种将索引表和动态数据表相结合的ORM模型,通过索引表间接实现了动态数据库的ORM,弥补了现有ORM组件的不足。同时分析比较了动态数据库ORM和传统JDBC直连的效率。  关键词:动态数据库;ORM;索引袁    0 引言    软件结构体系已由单
期刊
(1.北京工业大学,北京100022;2.中石油勘探开发研究院)  摘要:就实时数据库的开发方法作了详细的说明,并提出了实现关系型数据库与实时数据库之间数据交换的方案,具有行业应用价值。  关键词:实时数据库;关系数据库;Oracle;数据交换
期刊
(1.浙江金融职业学院信息技术系,浙江 杭州310018;2.复旦大学软件学院)  摘要:通过比较我国多个著名的C2C电子商务网站功能特点,采用系统分析和问卷调查的方法,并结合C2C电子商务网站发展趋势,分析了实现电子商务网站的通用系统架构和逻辑模型的技术可行性,并提出了C2C电子商务网站的通用架构模型。  关键词:C2C;电子商务网站;通用架构;网站建设
期刊