论文部分内容阅读
随着Web信息在数量上呈几何级增长,同时图片、声音、视频等多媒体信息资源也逐渐成为用户喜欢的资源,并呈上升趋势。传统搜索引擎需要提高搜索的准确度,并通过新的方式来呈现巨大的搜索结果集,以便让用户能更快更好的浏览与利用这些结果。另外,搜索引擎需要用新的模式来处理多媒体资源。这些要求促使搜索引擎向多元化发展,智能化、个性化、自动分类、自动聚类等成为这一阶段的基本特征。出现了一些相关技术,如元搜索引擎、聚类搜索引擎、垂直搜索引擎等。可视化方法在用户认知过程中具有其天生的优势,能帮助用户管理、分析、控制和理解大量信息。因此,搜索引擎的可视化,是搜索引擎多元化发展中的一个重要方面。当前对可视化搜索引擎的研究处于起步阶段,相关的研究主要是可视化检索技术的研究,包括检索式的可视化、搜索结果集的可视化显示等,只是涉及可视化搜索引擎相关的零散研究,没有系统的可视化搜索引擎的模型、整体架构的研究。本文研究了可视化搜索引擎的整体模型框架,并对一些重要、关键问题的实现方法和技术进行了讨论,并通过案例分析对这些方法和技术的应用进行了验证。本文共分6个主要部分:第一章为可视化搜索引擎基础理论与技术,这些理论与技术是后面各部分内容的基础,有的技术会频繁使用。主要讨论了搜索引擎基本理论和可视化理论。搜索引擎基本理论主要讨论了基本搜索模型,包括布尔模型、向量空间模型、概率模型、推理网络模型以及元搜索引擎模型等;搜索引擎排名算法,如PageRank算法和HITS算法;聚类算法以及改进的增量聚类算法等。信息可视化方面的基础理论主要介绍了相关概念、可视化的分类以及相关模型等。第二章主要研究了可视化搜索引擎的模型框架,是后面各章节内容的一个整体架构。首先分析了传统搜索引擎模型的不足之处,包括没有充分解析页面和Web资源的可视特征,巨大结果集的浏览增加了用户负担,以及缺乏一个好的交互环境来提高效率等。然后建立了可视化搜索引擎的模型框架,包括建立的原则、基本功能模块、工作流程、关键问题以及技术框架等。可视化搜索引擎模型框架建立的基本原则是以用户为中心、具有通用性、模块化以及具有较好的可扩展性。可视化搜索引擎从功能上来说包含了页面抓取模块、索引模块、检索模块以及用户接口模块等。本模型框架还包含可视化搜索引擎工作流程、可视化应用层次以及可视化对象分析等。可视化搜索引擎的关键问题包括Web资源的可视信息提取、可视化检索模型建立、可视化界面问题以及多种资源集成等问题。可视化的技术框架也是可视化搜索引擎模型框架的一个重要问题,主要包括可视化结构的应用和可视化实现技术等两个方面。第三章研究了可视化搜索引擎的资源索引。Web页面通过HTML代码进行描述,搜索引擎对页面的索引通常通过对代码的文本内容解析来实现。但事实上用户真正看到的是经过浏览器渲染后的可视页面,页面的可视内容才能真正体现页面创作者的意图。因此,搜索引擎要从页面的可视信息入手进行内容的索引,以获得更好的索引效果。在分析网页可视元素的基础上,重点研究了网页版面的可视特征,包括版面的结构、版面划分方法,特别是用可视化方法进行版面的划分,并计算其各个子版块的权重,为版块内的资源内容的提取提供一个重要影响因子。对版块内文本内容的索引是通过自动分词后,综合颜色、字体、大小、加粗等文本可视特性,并与版块权重因子结合,得到包含有可视特性的关键词倒排文档,从而实现可视化索引。对于图片、声音、视频等多媒体资源,则要结合资源内容,以视觉特征为基础进行索引。图片资源中人像的识别和音频资源中语音识别是最为关键的技术。第四章讨论了搜索引擎的可视化检索方法。信息可视化检索已经较多研究,本文重点是将这些研究与搜索引擎结合,主要研究了搜索引擎检索界面的可视化和搜索结果的可视化。检索界面的可视化包括检索式的可视化、基于示例的查询等,后者对于多媒体的检索是最为基本的功能。交互性是检索界面可视化的最重要部分。对于目录式搜索引擎来说,对层次目录数据的可视化也是一个重要方面。检索结果集的可视化由于具有了宏观信息和微观信息,能让用户发现更有价值的信息,其可视化的方法主要有基于聚类的方法、超链接法和语义内容法等。本章最后对三种重要的结果集属性的可视化进行了研究,包括聚类的可视化、关系的可视化、时间序列的可视化等。第五章研究了搜索引擎历史数据的可视化。搜索引擎中的历史数据主要包括两个方面:网页页面快照和搜索日志。通过对这些历史数据的挖掘,不但可以让用户获取更多的信息,还可以让搜索引擎改进自己的搜索方法,特别是排名算法。通过对页面快照的历史进行分析,可以让用户跟踪某页面的更新过程。本文用基于增量的方法实现了多个快照历史版本的存储,以及快照的全局可视化显示和局部可视化显示。搜索日志的挖掘主要研究了查询词频分析、地理搜索日志分析、会话分析等,并研究了其可视化挖掘的模型。第六章为案例分析。本文选取了Google和Wolfram|Alpha为研究案例,前者是最著名的搜索引擎,后者是2009年5月推出的一个较新的搜索引擎,二者具有不同的搜索模式,对二者的研究具有典型性。通过对Google的案例研究,得到的结论是在其搜索引擎中大量采用了各种可视化应用,并且其可视化应用研究正呈上升的趋势。Wolfram|Alpha以知识库和可视化模式库为基础,以直接回答的方式呈现搜索结果,而不是由用户自己去从结果集中搜索大量信息,虽然模式有很大变化,但也提供了很多的可视化模式对搜索结果进行可视化显示。可视化方法在搜索引擎中使用正越来越多,相关的研究也越来越多。可视化搜索引擎是各类技术与方法的集成,其功能与效果依赖于一些相关技术与方法,因此在对整体模型与框架研究的基础上,还需要对相关技术与方法的更深入研究,这正是下一步的工作。