论文部分内容阅读
随着数字化、网络化和信息化的飞速增长,一个以信息为核心的时代已经到来。对实现信息化来说中文信息检索已显得日益重要。作为中文信息处理领域的一项基础性课题,中文分词技术也日渐受到人们的重视,中文分词的准确性对中文信息检索有着至关重要的作用。因此中文信息检索已经成为信息社会的命脉和发展知识经济的重要基础。中文信息检索对社会生活的很多方面以及对社会经济的发展已经产生了不可估量的影响。Java编程语言依靠其较强的可移植性及安全性,在互联网中得到了广泛的应用。Nutch引擎工具就是基于Java语言开发的一个搜索引擎开发应用环境,其包括了自由的开发组件,较强的可扩展性及开放性使得其很快被搜索引擎开发者所接收,人们可以通过简单配置来实现LAN/WAN网络的搭建。针对于人们生活、工作及学习交往都离不开搜索引擎的形势下,本文应用Nutch工具进行了中文分词技术的研究。由于中英文处理机制在自然语言处理技术中存在着较大差距,因此在中文信息检索过程则不可避免的要面对中文分词这一工作,对于很多比较成熟的英语词语处理方法在中文检索过程中是无法使用的。中文分词作为中文检索的核心,是一门较为独立的技术,而搜索引擎作为这一技术的实际体现,有着较为广泛的使用范围。不仅仅是中文搜索,对于中文自动校对、中文智能翻译等先进技术,其核心技术同样是分词。本文通过了解中文分词的发展现状及目前三种主要的中文分词算法,进行分析总结,从理论上对整词二分、TRIE索引树、逐字二分三种词典组织形式进行了分析和对比,提出一种新的中文分词检索手段——双字Hash索引分词机制,该方法同样是将词条在词典中进行对比,然而对应的词典有一定的动态性,由此大大提高了中文的检索效率。通过具体的实验很好地证实了本方法的优越性。采用双字Hash索引分词词典和正向最大匹配算法相结合,实现了基于词典的中文分词算法。通过对Nutch分词架构的分析及代码的修改,将已实现的中文分词算法作为插件导入Nutch这一搜索引擎应用程序,经测试,中文插件能使此搜索引擎具有较好的中文处理能力,从而提高了检索效率。