基于文本的Web图片搜索引擎的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:linxuekai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网技术得到了前所未有的巨大发展。它给我们带来了一种全新的生活方式,对我们的生活带来了极大的方便。互联网成功的关键在于其庞大的信息容量以及它的内容不需要集中进行控制。这在为用户获取信息提供极大的便利的同时也使得用户对信息的查找犹如大海捞针。新的信息获取技术-搜索引擎技术应运而生,并得到了飞速的发展。Web技术已经发展到现在的2.0,目前的互联网中的网页已经不再是其诞生时以文本信息为主的模样,网页中大量的多媒体信息(图片,视频剪辑,音乐)使得我们的互联网内容变得丰富多彩。这同时也促使了我们对搜索内容提出了更高的要求,比如我们想搜索某些图片。加上基于文本的搜索技术的成熟,所以本文就以基于文本的Web图片搜索引擎为研究对象,在对其相关技术进行了详细的分析的基础上,提出了一个较完整的系统设计方案,并且实现了一个初步的基于文本的Web图片搜索引擎系统。本文首先介绍了图片搜索的背景,并对当前一些主流的图片搜索引擎进行了简要的分析。之后简介了搜索引擎相关的技术,包括其典型架构、网页抓取、信息提取、索引、结果相关性排序等,作为本文的最基本的理论基础。本文所使用的网页库的spider(WIRE),在第三章进行了相关的介绍。本文在第四章通过细致地分析HTML文件的”img”标记、”a”标记、图片URL、网页标题、网页的超链接文本、关联的”a”和”img”结构、”meta”标记、”table”结构、图片周围文本等部分的结构特点,并利用真实数据、网页实例进行实验验证,提出了9种Web图片相关信息的提取模式,用于从这些结构中提取与图片相关的信息,以保证提取到的信息相关性程度较高。本章还研究了信息的具体的提取方法,我们还根据启发式规则对无用图片的过滤进行了研究,提高了系统中图片可用度;并通过统计分析总结出HTML文件中表现出的一些潜在规律,这些规律对于图片的重要程度分析提供了一些线索。本文末章提出了一个详细的基于文本的Web图片搜索引擎系统的结构设计并实现,阐述了其工作的流程:获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引、提供查询。最后对我们的这个初步系统进行了简单的评测。
其他文献
知识服务是知识与服务的融合,相关研究正在蓬勃发展。Web服务是知识服务的一种重要支撑形式。Web服务使得公司或个人可以方便迅速地向外界提供服务,具有互操作性、平台无关性、
基于证书公钥密码系统结合了传统公钥密码(PKC)系统和基于身份密码(IBC)系统的优点,既克服了存在于PKC系统中的证书管理问题,又解决了存在于IBC系统中的密钥托管问题,逐渐成
随着信息技术和管理理论的发展以及计算机和网络的广泛应用,工作流技术正在成为计算机应用领域的研究热点。对工作流技术进行深入的研究对于提高企业的信息化程度、运行效率以
学位
随着信息技术的进步和Internet的迅速发展,一个全球性的信息社会正在逐渐形成,Web上提供的服务呈指数级增长,必须要有一个合适的服务发现机制来支持Web服务。但是目前在Web服务
目前,多处理器系统单晶片已经成为高性能芯片领域的研究热点之一,而片上网络(NoCs)技术则是解决多处理器系统单晶片上信息传输问题的一个重要方法。在NoCs设计方面,随着半导
动态对等群(Dynamic Peer Group(DPG))属于Ad Hoc群的一种,其最显著的特性是对称性和动态性。群中每一个成员都是平等对称的,任何成员无权擅自决定群密钥,同时成员加入或退出
随着数据库技术的不断发展,分布式数据库的应用变得越来越广泛。由于在分布式数据库系统中数据的冗余和分布,增加了分布式数据查询的难度和复杂度,如何更加有效的查询数据是
在传统的软件集成开发环境中,大多数仅实现了编程界面的可视化,对于程序执行过程及调试过程中的信息缺乏动态和直观的显示。另外,传统的软件集成开发环境在平台无关性等方面
随着网络应用的普及和全球通信业务的日益增长,网络流量的控制和管理显得尤为重要。长期以来,网络流量建模和分析都以泊松分布和马尔可夫过程理论为基础,而近年来大量对网络
复杂动态分布式实时系统中的服务质量QoS的描述、控制、管理、协商及保证是一项非常复杂和具有挑战性的工作,服务质量QoS直接关系到系统的性能。但是QoS的研究仍缺乏完整、清