论文部分内容阅读
随着通用搜索引擎和多媒体信息快速的发展,图像搜索引擎成为国内外的一个研究热点,文字信息的搜索已经不能满足人们的需求,人们对多媒体信息的需求越来越迫切,其中最常用的就是图像,由此互联网图像搜索引擎应运而生。大型的搜索引擎数据量太大,结构太复杂,不太适合校园网,目前我们学校的校园网搜索引擎功能有文件搜索、网页搜索等,但图像搜索这里还是一个空缺。
本课题研究和实现了校园网网页上图像信息的抓取、下载、索引和检索,最终完成了一个简单而又较为完整的校园网图像搜索引擎系统。本课题讨论了爬虫程序的抓取策略,通过对爬虫程序(Spider)的改进,利用正则表达式、sql队列、定时器等相关技术,实现了对校园网图像及网页信息的抓取和下载,并对干扰图像进行了过滤处理,同时对校园网外的网站进行了屏蔽。用IKAnalyzer中文分词系统来实现中文分词,通过Lucene的常用的一些API实现了索引的建立、增加和查询。采用Jsp+Tomcat服务器的BS架构来实现图像检索模块,并取得了良好的效果。