PHP站内中文搜索技术的研究与实现

被引量 : 0次 | 上传用户:st841004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文以站内中文全文搜索技术为背景,结合PHP(PHP:Hypertext Preprocessor)在实践领域中对Web应用的性能和内存消耗的要求,提出了一种纯PHP的以预索引字典为基础的轻量高效的站内中文搜索引擎的解决力案。即:通过索引器在数据库中保存生成的站内全文数据的带权重索引和词频权重索引,检索器基于此全文数据可以按多个类别的权重定义计算相关度得到搜索结果,表示器将结果高亮排序返回给搜索用户完成搜索功能。一个基于海量字典的中文分词器作为中文数据处理的核心,将中英文及数字信息正确的切分并使得索引器可以进行按词汇权重索引,实现丰富灵活的搜索或索引相关功能。文章针对PHP站内中文搜索技术中最突出的三个方面进行研究。1)轻量高效的PHP中文搜索框架设计,并统一考虑了检索器和索引器的中文分词问题,使得索引和搜索时处理同样的分词结果。这样,在以较小的代价保证分词器90%以上准确度的同时,对不准确的分词结果具有很好的容忍度,保证了PHP应用的轻量性和可用性。对实践中对性能非常敏感的Web应用的设计开发有一定的借鉴意义。2)对站内数据的搜索结果提出了一种多权重因素的相关度计算的方法,该方法在传统的关键字权重相关度的基础上,结合HTML标记进行权重识别和统计,并通过文档属性和统计数据等类别增加了用户可干涉的相关度权重因素,有力地保障了搜索结果的有效性,提升了用户的站内搜索体验。3)为了提升中文分词的质量,并同时解决PHP应用在处理海量词典时的性能和内存消耗的问题,本文通过优化的分词匹配算法和创新性地在PHP中文分词中使用B-Tree预索引词典,以数量达53万多个的UTF-8简繁体中文词汇在保证了较好的分词结果的同时保持了中文搜索的轻量性和高效性。并在实践中证明具有良好的可用性和通用性,具有较低的算法时间复杂度。本文结合PHP技术以及搜索引擎、中文分词等理论背景,对PHP领域内实现轻量高效的站内中文搜索提出了行之有效的分析解决方法。随着Web应用的持续发展和PHP普遍应用、中文信息处理需求的持续增长,本文所论述的方法对PHP相关范围内的中文搜索或索引相关功能都有一定的指导意义。同时,随着先进的搜索引擎技术模型的演进,本文所做的分析研究为中文站内搜索的普适性应用进行了一项有意义的探索。
其他文献
建筑施工进度计划是对各项施工作业活动在逻辑和时间上进行适当地安排,以便有效地利用有限的资源条件,在保证施工质量的前提下按期完成整个工程项目的施工。然而由于工期长、
所谓隐性思想政治教育是相对于显性思想政治教育而言的,就是思想政治工作者在充分理解思想政治教育内涵的基础上,在工作中尽可能不暴露自己的目的,以改变当前受教育者总是以
目的 :观察补充叶酸、维生素 B6 和维生素 B1 2 对高蛋氨酸 (Met)喂饲所引起高同型半胱氨酸 (Hcy)血症及动脉损伤的影响。  方法 :Wistar大鼠 30只随机分成 3组 :对照组、
责任会计工作是中国邮政集团公司从2007年开始在全国邮政企业全面推进的一项必要而迫切的重要工作。开展此项工作,对于实现邮政企业的科学管理,提高决策水平,促进业务发展,提
压缩空气发动机是利用高压压缩空气工作,将高压空气中储存的压缩能转换其它的机械能的一种动力装置。在资源和环境问题日益突出的情况下,压缩空气发动机与传统的发动机相比具
任何产品进入市场中都会成为某竞争圈的一份子,市场体制下的优胜劣汰原则使得越来越多的产品淡出了“竞技场”,面对不断缩小的产品的生存空间,必须找到有效的形式来帮助产品
以X60和X70管线钢为研究对象,研究了管线钢中显微组织与断裂韧性之间的关系。结果表明,多边形铁素体对管线钢既有增韧性又有减韧性作用:当钢中分布细小的多边形铁素体晶粒时,
鼓形齿联轴器由于其独特的鼓形结构使其具备优异的传动特性,能够补偿轴线间多方向相对位移误差(轴向位移,径向位移和角位移),是大倾角、大变位、大力矩等恶劣工况下常用传动
随着经济全球化进程的加快和现代物流对经济发展的重要性逐步为国人所认识,我国的物流产业正处于一个高速发展的时期。现代物流的根本宗旨是提高物流效率、降低物流成本、满
节能环保是目前世界上普遍关注的,建设资源节约型、环境友好型社会是我国目前的主要任务和目标。在我国的电力系统中,大约有五分之一的装机容量用于驱动风机、水泵等需要调速