基于PSO-BP神经网络的Lucene搜索引擎的研究

被引量 : 0次 | 上传用户:wrxingmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Lucene是一个全文搜索体系架构,具有优异的索引结构、良好的系统架构以及高性能、可伸缩的信息搜索库等优点,但是对于中文分词以及多种文本格式的支持却很是不足。目前Lucene采用的中文分词算法有很多,包括Lucene自身提供的StandardAnalyzer和CJKAnalyzer,以及第三方提供的ChineseAnalyzer和IK_CAnalyzer等等很多种中文分词系统。其中,StandardAnalyzer是基于单字分词的,即在对中文文本进行分词时,以字为单位进行切分,其缺点是需要复杂的单字匹配算法,以及大量的CPU运算;CJKAnalyzer和ChineseAnalyzer采用的均是二分法,所谓二分法就是每每两个字当作一个词来切分;IK_CAnalyzer分词技术是基于分词词典的,采用了特有的正向迭代最细粒度切分算法和多子处理器分析模式。目前,Lucene搜索引擎并未实现基于理解的中文分词方法,因为计算机无法识别每个词在不同语境中的含义,所以基于理解的分词方法还未有实际的运用效果。针对Lucene对中文分词的不足,尤其是缺少基于理解领域的中文分词技术等缺陷,本文探讨了BP(Back Propagation)神经网络算法在中文分词中的应用研究,并针对BP神经网络应用中文分词具有收敛速度慢,容易陷入局部极小值以及速度和效率低等缺陷,提出了一种改进的微粒群优化算法(PSO, Particle SwarmOptimization)优化BP神经网络——PSO-BP神经网络,并将其运用于中文分词中,与传统的BP神经网络相比较,可以得出PSO-BP神经网络不仅解决了传统BP神经网络收敛速度慢的缺陷,同时也提高了分词的精度。然后,本文对Lucene提供的第三方中文分词组件的API进行了系统地研究与分析,将经PSO-BP神经网络优化后的中文分词技术成功应用于Lucene中,并与Lucene自带的中文分词技术进行比较,得出该技术明显优于自带的中文分词技术。最后,本文采用包含PSO-BP神经网络中文分词组件的Lucene进行搜索引擎的设计和实现,从而实现搜索引擎的中文分词的智能化探索,为后续的工作和研究提供了一个良好的平台。
其他文献
装配工艺设计是飞机研制生产过程的重要环节,其质量直接影响到产品精度、研制生产成本和周期。随着基于模型定义(Model-based Definition, MBD)技术的发展,飞机装配工艺设计开始
环境问题是当今社会普遍关心的问题,而空气质量的监测及大气污染的治理是当前中国面临的重大问题。国家对PM2.5的监测与防治工作非常重视,在多处区域进行了细颗粒物与大气污染
绩效评价体系是一个反映企业经营成果的管理系统,还能够有效的控制企业的战略方向,是企业管理系统中很重要的一个体系,它的重要程度已经在世界范围内受到了关注。我国目前有很多
【正】 (一) 李西涯先生说:“风雨字最入诗”(《麓堂诗话》第32页)。这位明孝宗时的文渊阁大学士,被后人誉为“天才秀逸,诗歌典雅流丽”的行家、明眼人,实际上是从诗的词汇角
代谢组学技术的发展为中国传统兽医药学的现代化研究提供了一种选择,将代谢组学技术应用到中兽药药效评价方面具有广阔的前景。本论文以当归挥发油为研究对象,气相-质谱联用(GC-
高管团队作为企业的决策者和管理者,其人力资本和社会资本特性对企业的运作和价值创造有着重要的作用。中国正处于经济转型期,正式制度的缺失和不完善,使得如政治网络关系、高
我国西部干旱和半干旱地区的总面积约占我国国土面积的50%以上,这些地区虽然农业资源、自然资源的发展开发潜力非常大,但面对着气候条件恶劣、生态环境恶化、社会经济发展滞后
掠入射X射线散射是薄膜材料结构表征的重要手段之一,具有测试过程中对样品无损、能提供大面积表面结构的统计信息等优点,通过与同步辐射光源相结合可以实现对原位过程结构演变
本论文是对农户信用评级体系构建的一个探讨,先对我国农民信用评级现状进行考察,分析其特点与缺陷;然后通过对农户的经济收入进行调查来获得其主要经济来源,以此为根据来为农户进
当前我国存在大量的工业建筑。由于工业建筑是工业生产的主要场所,如若工业建筑发生危机事故,大量人员、设备的安全将受到严重的威胁,企业的正常生产也会受到影响。因此,需要重视