论文部分内容阅读
对传统的信息检索技术的研究反映了人们很早就开始注意对信息搜集与使用的研究。随着人类社会进入信息时代,信息以爆炸般的速度增长,各种信息充斥了人们的生活空间。在这种情况下,如何快速有效找到有用的信息成为一个重要课题。
对于一个拥有大量数据的网站来说,定制自己的站内检索机制是克服通用搜索引擎索引范围不全、更新周期慢、不能定制等缺点的最佳方法。随着网站内容的不断丰富,站内搜索逐渐成为继通用搜索和行业搜索之后的又一个热点,其应用价值日益引起IT界的重视和关注。
本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合站内搜索的个性化需求,设计并实现了一个高效的Web站内全文搜索系统。不仅完成了整个站内搜索引擎框架的设计,而且给出了系统主要部分的实现。
本文论述了国内外搜索引擎的技术发展现状,并对目前常见的站内搜索技术进行了分析比较。之后在对Sphinx全文检索软件包进行介绍的基础上,结合目前很多网站的构建都是采用广为流行的基于开放源代码的LAMP(Linux+Apache+MySQL+PHP)技术实现的现状,借助第三方的Sphinx软件包和LibMMSeg软件包设计并实现了一个高效的Web站内全文搜索系统。这种通过集成Sphinx来为基于LAMP技术的网站提供站内搜索的方法具有很好的通用性,借助该方法,我们不仅可以在网站构建时就直接实现站内搜索引擎,而且也能在不对现有网站的原有架构进行修改的情况下便捷地为网站提供一个性能优越的站内搜索引擎。