一种基于LUCENE的中文分词算法研究

来源 :青岛大学学报:自然科学版 | 被引量 : 0次 | 上传用户:lovedengdai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。
其他文献
近年来,我市认真贯彻落实中共中央《关于加强技术创新,发展高科技,实现产业化》的决定,积极促进民营科技企业的技术创新。在发展民营科技企业中坚持“一手抓发展,一手抓提高”的方
基于CT图像,选择颌面部组织(包括脸颊软组织)为对象,建立符合生理要求的口腔修复、软组织变形仿真模型。利用Amira软件,通过轮廓提取、公共轮廓线建立、模型光顺等操作,结合重建组织的医学特征,对颌面部不同组织分别进行三维重建。所建立的三维模型可真实再现颌面各组织的解剖形态,体现相邻组织紧密结合特性。
近年来,唐山市丰润区圪塔坨村以大棚西红柿种植为重点,大力发展棚室蔬菜,实现了规模化经营,成为全区西红柿的最大产销地。目前,棚室面积达2500亩,占全村总耕地面积的61.2%,从事西红柿
采用密度泛函理论中的交换关联函数B3P86,对Fen,Con和Nin(n=2~4)分子团簇进行了几何结构的优化。对于每一个分子体系,为了能找到具有最低能量的结构,分别考虑多种同分异构体和不同的
利用VAR模型,协整分析和向量误差修正模型对我国外汇储备增量与物价指数变动的内在联系进行了实证检验.结论表明,外汇储备增长与物价指数变动之间存在长期稳定的关系;短期看,
近几年,青少年犯罪在刑事犯罪中所占比例逐年攀升,已近70%,并且呈现出年龄低龄化、类型多元化、手段成人化、方式团伙化的趋势。由于青少年的认知能力较低,尚未形成完整的人格,加之
北京金地蓝天建筑防水技术开发有限公司开发的“蓝天牌水不漏”是一种高效防潮、抗渗、堵漏用涂料,也是一种极好的粘结材料。分缓凝型、速凝型、和超速凝型三种。
主要介绍了放射性原理、保温材料放射性的来源及其危害。并且介绍了保温材料放射性测试方法以及试验中的值得注意的方面。通过与其他建筑材料放射性强弱程度的比较,进一步说明
宝钢大舞台工程作为2010上海世博会工业厂房建筑可持续更新的典型案例,运用了多种适宜技术,充分展现了"低技环保"和"绿色生态"的理念。
近年来,遵化市以培育龙头企业为突破口,以发展订单农业为依托,以打造品牌为切入点,以构建销售网络为抓手,农业产业链条越来越长,产业化之路越走越宽。2003年农业产业化经营率达到55