基于Lucene的中文分词模块的设计和实现

来源 :电子技术 | 被引量 : 0次 | 上传用户：guoxxjie

【摘要】

：

基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块.分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更

【作者】

：

罗宁徐俊刚郭洪韬

【机构】

：

中国科学院研究生院,北京,100049首都信息发展股份有限公司,北京,100029;

【出处】

：

电子技术

【发表日期】

：

2012年9期

【关键词】

：

搜索引擎中文分词 Lucene 哈希索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块.分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间.下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统.

其他文献

花生耐盐种质的筛选与评价（英文）

花生耐盐种质的筛选对于盐碱地的开发有潜在重要意义。选取了41份花生种质,研究其萌发期与苗期的耐盐性。结果表明,花生发芽与生长受盐害抑制,在0.5%盐浓度下,以发芽势、发芽

期刊

种质花生耐盐能力聚类分析萌发期苗期盐碱地germination出苗期seedling

二次电子显微镜的自动缺陷分类(SEM ADC)新应用-新产品设计转移

随着集成电路工业的快速成长,需在短时间内,引进愈小组件设计且导入量产的时间,愈来愈短.为了新产品能尽早导入量产,产品的缺陷的再检查(review)与分类是必要的,以期提供快速

期刊

二次电子显微镜的自动缺陷再检查/自动缺陷分类良率提升缺陷原因分析

在线学习对英语写作能力的影响——以清华大学学堂在线的《UC Berkeley X：ColWri2.3x英语写作指导Ⅲ》课程为基础

在线学习是当今国内外教育领域的热门话题，慕课作为大规模在线开放课程为大多数学习者及教师所青睐。随着“互联网+”政策的提出以及国际教育信息化大会的召开，在线学习在中国

学位

高等学校在线学习英语写作学生能力

无图形损伤的选择性去除微小尘粒的湿法清洗技术

The drastic shrinking of semiconductor linewidths has led to a need for new wafer cleaning strategies in the FEOL. For past technology generations, particle rem

期刊

图形损伤选择性去除微小尘粒湿法removal efficiencyphysical mechanismflow ratechemical etc

论《黑暗的左手》中金利·艾的自性化——一种荣格式解读

厄休拉·勒古恩是科幻小说领域最重要的作家之一,她的代表作《黑暗的左手》出版于1969年,以其富有挑战性的思想、主题和构思等同时获得了两项世界科幻大奖——雨果奖和星云奖

学位

《黑暗的左手》科幻小说主人公人格面具自我心理

用于注入层用途的湿法显影有机抗反射涂层

底部抗反射涂层(BARCs)和光刻胶已被广泛地用于半导体制造中的光刻加工工艺中.BARCs在光刻中的主要好处就是聚焦/曝光宽容度的改善,提高了关键尺寸的控制,消除了反射凹口,防

期刊

光学光刻抗反射涂层关键尺寸控制衬底反射注入底部抗反射涂层湿法显影

网络实验室的实验调度系统设计与实现

介绍了网络实验室的实验调度系统的设计与实现.采用同步实验和异步实验两种实验模式,并提供同步实验的预约机制.实验安排的优先级从高到低为,预约实验、同步实验、异步实验.

期刊

网络实验室同步/异步实验模式实验调度系统性能分析

阿尔及利亚公路1-7.1m×4.5m框架桥计算分析

简单介绍了某框架桥的设计计算参数及结构材料特性,并根据阿尔及利亚规范和法国规范,对该框架桥进行了分析和计算,从而更有效的保证桥梁结构安全。 The design calculation

期刊

框架桥荷载组合截面内力应力验算

BBC博客：写给中国DOTA2的一些话

明天要启程回国了,原本打算睡了,可从微信群里看到一条长微博后忍不住想把回国后写的东西提前赶出来。从业10年,玩过的游戏不少,主持过的赛事挺多,选手们的起起伏伏也早已见

期刊

博客中国游戏赛事

陈毅捉放黎健昌

艰苦坚持1935年早春时节,江西井冈山上的丛林枝头,又泛起一层新绿,那嫣红的杜鹃和洁白的木兰,在习习春风中竞相怒放。这天,曙色初露,一株高大的青松下,立着一位中年军人,身材

期刊

武当拳江西井冈山青年军人早春时节红军游击队湘赣边界游击战争侦察工作井冈山市游击战术

基于Lucene的中文分词模块的设计和实现

与本文相关的学术论文