一种基于LUCENE的中文分词算法研究

来源 :青岛大学学报：自然科学版 | 被引量 : 0次 | 上传用户：lovedengdai

【摘要】

：

由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用，本文给出了一种新的中文分词算法，用于改进Lucene中文分析器。该算法基于字符串匹

【作者】

：

戴洪蒋静樊程于雪丽

【机构】

：

青岛大学信息工程学院

【出处】

：

青岛大学学报：自然科学版

【发表日期】

：

2011年3期

【关键词】

：

全文检索 LUCENE 中文分词 Full text Retrieval Lucene Chinese Parting-words

【基金项目】

：

国家支撑计划项目（2006BA111B07）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用，本文给出了一种新的中文分词算法，用于改进Lucene中文分析器。该算法基于字符串匹配原理，实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真，比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示，改进后的分析器分词效果明显优于Lucene自带的两种分析器，提高了全文检索系统的中文处理能力，系统的查全率和查准率都达到用户的需求。

其他文献

大力发展民营科技企业加快科技强市进程

近年来，我市认真贯彻落实中共中央《关于加强技术创新，发展高科技，实现产业化》的决定，积极促进民营科技企业的技术创新。在发展民营科技企业中坚持“一手抓发展，一手抓提高”的方

期刊

民营科技企业技术创新唐山市地方经济高新技术产业化社会化服务体系

基于CT图像的颌面部模型三维重建方法

基于CT图像,选择颌面部组织(包括脸颊软组织)为对象,建立符合生理要求的口腔修复、软组织变形仿真模型。利用Amira软件,通过轮廓提取、公共轮廓线建立、模型光顺等操作,结合重建组织的医学特征,对颌面部不同组织分别进行三维重建。所建立的三维模型可真实再现颌面各组织的解剖形态,体现相邻组织紧密结合特性。

期刊

三维重建CT图像硬组织软组织3D reconstruction CT images sclerous tissues soft tissues

“小柿子”做出大文章——唐山市丰润区圪塔坨村发展西红柿种植的调查与启示

近年来，唐山市丰润区圪塔坨村以大棚西红柿种植为重点，大力发展棚室蔬菜，实现了规模化经营，成为全区西红柿的最大产销地。目前，棚室面积达2500亩，占全村总耕地面积的61．2％，从事西红柿

期刊

种植业结构西红柿丰润区唐山市人均纯收入文章柿子耕地面积规模化经营规模化种植

Fen，Con和Nin（n=2～4）分子团簇的自旋极化效应

采用密度泛函理论中的交换关联函数B3P86，对Fen，Con和Nin（n=2～4）分子团簇进行了几何结构的优化。对于每一个分子体系，为了能找到具有最低能量的结构，分别考虑多种同分异构体和不同的

期刊

FENCONNin自旋极化密度泛函理论Fen Con Nin Spin polarization Density functional the

我国外汇储备增长与物价指数变动的实证研究

利用VAR模型,协整分析和向量误差修正模型对我国外汇储备增量与物价指数变动的内在联系进行了实证检验.结论表明,外汇储备增长与物价指数变动之间存在长期稳定的关系;短期看,

期刊

外汇储备增长物价指数变动协整分析向量误差修正模型Foreign exchange reserve Price indexcointegration an

面向新世纪做好预防青少年违法犯罪工作

近几年，青少年犯罪在刑事犯罪中所占比例逐年攀升，已近70％，并且呈现出年龄低龄化、类型多元化、手段成人化、方式团伙化的趋势。由于青少年的认知能力较低，尚未形成完整的人格，加之

期刊

青少年犯罪犯罪预防犯罪特点犯罪原因新闻媒体法制教育中国

环保型防潮抗渗堵漏用涂料

北京金地蓝天建筑防水技术开发有限公司开发的“蓝天牌水不漏”是一种高效防潮、抗渗、堵漏用涂料，也是一种极好的粘结材料。分缓凝型、速凝型、和超速凝型三种。

期刊

涂料堵漏抗渗防潮环保型技术开发建筑防水有限公司粘结材料速凝型

保温材料的放射性及其测试方法的介绍

主要介绍了放射性原理、保温材料放射性的来源及其危害。并且介绍了保温材料放射性测试方法以及试验中的值得注意的方面。通过与其他建筑材料放射性强弱程度的比较，进一步说明

期刊

放射性保温材料内照射指数外照射指数

工业遗存绿色世博——上海世博会宝钢大舞台改造设计

宝钢大舞台工程作为2010上海世博会工业厂房建筑可持续更新的典型案例,运用了多种适宜技术,充分展现了"低技环保"和"绿色生态"的理念。

期刊

可持续更新工业遗存低技环保绿色生态Sustainable renovationIndustrial relicsLow-tech environ

生产与市场对接订单与品牌联手遵化农业产业化之路越走越宽

近年来，遵化市以培育龙头企业为突破口，以发展订单农业为依托，以打造品牌为切入点，以构建销售网络为抓手，农业产业链条越来越长，产业化之路越走越宽。2003年农业产业化经营率达到55

期刊

生产市场订单品牌农业产业化企业

一种基于LUCENE的中文分词算法研究

与本文相关的学术论文