基于文本的Web图片搜索引擎的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：linxuekai

【摘要】

：

近年来,互联网技术得到了前所未有的巨大发展。它给我们带来了一种全新的生活方式,对我们的生活带来了极大的方便。互联网成功的关键在于其庞大的信息容量以及它的内容不需要

【作者】

：

谢同

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2007年期

【关键词】

：

基于文本 Web图片搜索引擎 HTML 提取模式提取方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,互联网技术得到了前所未有的巨大发展。它给我们带来了一种全新的生活方式,对我们的生活带来了极大的方便。互联网成功的关键在于其庞大的信息容量以及它的内容不需要集中进行控制。这在为用户获取信息提供极大的便利的同时也使得用户对信息的查找犹如大海捞针。新的信息获取技术-搜索引擎技术应运而生,并得到了飞速的发展。Web技术已经发展到现在的2.0,目前的互联网中的网页已经不再是其诞生时以文本信息为主的模样,网页中大量的多媒体信息(图片,视频剪辑,音乐)使得我们的互联网内容变得丰富多彩。这同时也促使了我们对搜索内容提出了更高的要求,比如我们想搜索某些图片。加上基于文本的搜索技术的成熟,所以本文就以基于文本的Web图片搜索引擎为研究对象,在对其相关技术进行了详细的分析的基础上,提出了一个较完整的系统设计方案,并且实现了一个初步的基于文本的Web图片搜索引擎系统。本文首先介绍了图片搜索的背景,并对当前一些主流的图片搜索引擎进行了简要的分析。之后简介了搜索引擎相关的技术,包括其典型架构、网页抓取、信息提取、索引、结果相关性排序等,作为本文的最基本的理论基础。本文所使用的网页库的spider(WIRE),在第三章进行了相关的介绍。本文在第四章通过细致地分析HTML文件的”img”标记、”a”标记、图片URL、网页标题、网页的超链接文本、关联的”a”和”img”结构、”meta”标记、”table”结构、图片周围文本等部分的结构特点,并利用真实数据、网页实例进行实验验证,提出了9种Web图片相关信息的提取模式,用于从这些结构中提取与图片相关的信息,以保证提取到的信息相关性程度较高。本章还研究了信息的具体的提取方法,我们还根据启发式规则对无用图片的过滤进行了研究,提高了系统中图片可用度;并通过统计分析总结出HTML文件中表现出的一些潜在规律,这些规律对于图片的重要程度分析提供了一些线索。本文末章提出了一个详细的基于文本的Web图片搜索引擎系统的结构设计并实现,阐述了其工作的流程:获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引、提供查询。最后对我们的这个初步系统进行了简单的评测。

其他文献

基于Web服务的油液监测诊断知识服务模式研究

知识服务是知识与服务的融合，相关研究正在蓬勃发展。Web服务是知识服务的一种重要支撑形式。Web服务使得公司或个人可以方便迅速地向外界提供服务，具有互操作性、平台无关性、

学位

油液监测故障诊断图像处理知识服务模式Web服务

基于证书可验证加密签名和消息可恢复签名研究

基于证书公钥密码系统结合了传统公钥密码(PKC)系统和基于身份密码(IBC)系统的优点,既克服了存在于PKC系统中的证书管理问题,又解决了存在于IBC系统中的密钥托管问题,逐渐成

学位

数字签名基于证书签名可验证加密签名随机预言机双线性对

基于Petri网的工作流模型的研究与分析

随着信息技术和管理理论的发展以及计算机和网络的广泛应用，工作流技术正在成为计算机应用领域的研究热点。对工作流技术进行深入的研究对于提高企业的信息化程度、运行效率以

学位

语义Web服务发现的研究与应用

随着信息技术的进步和Internet的迅速发展，一个全球性的信息社会正在逐渐形成，Web上提供的服务呈指数级增长，必须要有一个合适的服务发现机制来支持Web服务。但是目前在Web服务

学位

Web服务语义WebWeb内容软件代理信息交互

一种基于片上Torus结构的多路径路由方法

目前,多处理器系统单晶片已经成为高性能芯片领域的研究热点之一,而片上网络(NoCs)技术则是解决多处理器系统单晶片上信息传输问题的一个重要方法。在NoCs设计方面,随着半导

学位

多路最小路由MMR虚拟通道模型VCM单源无阻塞Torus结构片上网络

动态对等群中的群密钥管理研究

动态对等群(Dynamic Peer Group(DPG))属于Ad Hoc群的一种,其最显著的特性是对称性和动态性。群中每一个成员都是平等对称的,任何成员无权擅自决定群密钥,同时成员加入或退出

学位

群密钥协商动态对等群Weil对基于身份的数字签名可证明安全随机预言机模型

募捐管理系统中分布式查询优化的设计与实现

随着数据库技术的不断发展,分布式数据库的应用变得越来越广泛。由于在分布式数据库系统中数据的冗余和分布,增加了分布式数据查询的难度和复杂度,如何更加有效的查询数据是

学位

分布式数据库系统查询优化遗传算法半连接算法半连接-遗传算法

基于虚拟机的程序执行与调试的可视化研究

在传统的软件集成开发环境中,大多数仅实现了编程界面的可视化,对于程序执行过程及调试过程中的信息缺乏动态和直观的显示。另外,传统的软件集成开发环境在平台无关性等方面

学位

可视化虚拟机程序调试BASIC

基于自相似流量预测的WTP-ARED主动队列管理算法研究

随着网络应用的普及和全球通信业务的日益增长,网络流量的控制和管理显得尤为重要。长期以来,网络流量建模和分析都以泊松分布和马尔可夫过程理论为基础,而近年来大量对网络

学位

网络流量自相似性主动队列管理流量预测WTP-AREDNS2

网格环境下的异构动态实时系统服务质量的面向方面建模

复杂动态分布式实时系统中的服务质量QoS的描述、控制、管理、协商及保证是一项非常复杂和具有挑战性的工作,服务质量QoS直接关系到系统的性能。但是QoS的研究仍缺乏完整、清

学位

网格QoS统一建模语言实时系统面向方面UML扩展

基于文本的Web图片搜索引擎的研究与实现

与本文相关的学术论文