基于Lucene系统的中文分词算法设计与实现

来源 :电脑编程技巧与维护 | 被引量 : 0次 | 上传用户:roc9055
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
简要阐述了在信息检索系统中基于Lucene软件包设计实现的一个中文分词算法。通过人民日报语料库建立三叉Trie词典结构树,采用二元动态规划算法,把句子的词语划分通过计算概率的办法解决,通过分词测试得到比较理想结果。
其他文献
2012年8月15日,在倡导“保护生态环境,打造宜居之城”的江苏扬中,中联重科2×HZS180环保型混凝土搅拌站正式投产,此款设备是中联重科参考最严格的环保要求,融合中联先进的搅拌
结合小康高速公路郑家湾边坡的地质条件与工程特性,采用加设抗滑桩的措施进行处理,并通过钢筋应力计与混凝土应变计对抗滑桩内部受力特性进行长期监测,得出抗滑桩承受的滑坡
分析船舶开关舱的事故隐患,以及造成隐患的原因及其消除隐患的措施.
桥梁加固是延长桥梁使用寿命,保证运营安全的重要手段。对长大上行线K471+072第四铁岭河桥加固前和加固后进行动态测试,分析结果表明,加固后提高了梁的横向刚度,同时指出加固
设计并实现了一个基于Apriori算法的关联规则挖掘系统。该系统采用Java技术,具有可移植性强、人机交互界面美观、实用性强等优势,可以对频繁项集和关联规则进行挖掘。并对系
Flash的突出特性是支持矢量动画,即在计算机中使用数学方程来描述屏幕上复杂曲线,利用图形的抽象运动特征来记录变化的画面信息。阐述了基于Flash这一特性,利用VS2010开发环
国家的振兴在教育,教育的发展在教师。作为农村地区居多的贵州省来说,基础课程改革的成败关系到全省经济的长促发展,因此农村数学教师要改变传统的教学模式以适应学生更好的
针对当前C语言程序设计与社会脱节的问题,从整体性上对其进行分析,找到新的办法来解决该问题.对教学中的采用的整体性理论、复杂性理论和混合性理论进行了详细地阐述;对C语言
近几年,随着铁路不断提速及扩能改造的需要,站场改造成了一种很常见的施工项目,如何快速、有序、安全地进行站场改造,把对营业线行车的影响降到最低,是站场改造施工的关键。
探讨了《数据库系统概论》(第5版)第三章数据查询一节中一些例题的多种解法,特别是对于带有Exists谓词的子查询进行了深入分析。一题多解为拓展学生思维、提高学生灵活应用Sele