可视化搜索引擎模型与方法研究

来源 :武汉大学 | 被引量 : 5次 | 上传用户:l00ok100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息在数量上呈几何级增长,同时图片、声音、视频等多媒体信息资源也逐渐成为用户喜欢的资源,并呈上升趋势。传统搜索引擎需要提高搜索的准确度,并通过新的方式来呈现巨大的搜索结果集,以便让用户能更快更好的浏览与利用这些结果。另外,搜索引擎需要用新的模式来处理多媒体资源。这些要求促使搜索引擎向多元化发展,智能化、个性化、自动分类、自动聚类等成为这一阶段的基本特征。出现了一些相关技术,如元搜索引擎、聚类搜索引擎、垂直搜索引擎等。可视化方法在用户认知过程中具有其天生的优势,能帮助用户管理、分析、控制和理解大量信息。因此,搜索引擎的可视化,是搜索引擎多元化发展中的一个重要方面。当前对可视化搜索引擎的研究处于起步阶段,相关的研究主要是可视化检索技术的研究,包括检索式的可视化、搜索结果集的可视化显示等,只是涉及可视化搜索引擎相关的零散研究,没有系统的可视化搜索引擎的模型、整体架构的研究。本文研究了可视化搜索引擎的整体模型框架,并对一些重要、关键问题的实现方法和技术进行了讨论,并通过案例分析对这些方法和技术的应用进行了验证。本文共分6个主要部分:第一章为可视化搜索引擎基础理论与技术,这些理论与技术是后面各部分内容的基础,有的技术会频繁使用。主要讨论了搜索引擎基本理论和可视化理论。搜索引擎基本理论主要讨论了基本搜索模型,包括布尔模型、向量空间模型、概率模型、推理网络模型以及元搜索引擎模型等;搜索引擎排名算法,如PageRank算法和HITS算法;聚类算法以及改进的增量聚类算法等。信息可视化方面的基础理论主要介绍了相关概念、可视化的分类以及相关模型等。第二章主要研究了可视化搜索引擎的模型框架,是后面各章节内容的一个整体架构。首先分析了传统搜索引擎模型的不足之处,包括没有充分解析页面和Web资源的可视特征,巨大结果集的浏览增加了用户负担,以及缺乏一个好的交互环境来提高效率等。然后建立了可视化搜索引擎的模型框架,包括建立的原则、基本功能模块、工作流程、关键问题以及技术框架等。可视化搜索引擎模型框架建立的基本原则是以用户为中心、具有通用性、模块化以及具有较好的可扩展性。可视化搜索引擎从功能上来说包含了页面抓取模块、索引模块、检索模块以及用户接口模块等。本模型框架还包含可视化搜索引擎工作流程、可视化应用层次以及可视化对象分析等。可视化搜索引擎的关键问题包括Web资源的可视信息提取、可视化检索模型建立、可视化界面问题以及多种资源集成等问题。可视化的技术框架也是可视化搜索引擎模型框架的一个重要问题,主要包括可视化结构的应用和可视化实现技术等两个方面。第三章研究了可视化搜索引擎的资源索引。Web页面通过HTML代码进行描述,搜索引擎对页面的索引通常通过对代码的文本内容解析来实现。但事实上用户真正看到的是经过浏览器渲染后的可视页面,页面的可视内容才能真正体现页面创作者的意图。因此,搜索引擎要从页面的可视信息入手进行内容的索引,以获得更好的索引效果。在分析网页可视元素的基础上,重点研究了网页版面的可视特征,包括版面的结构、版面划分方法,特别是用可视化方法进行版面的划分,并计算其各个子版块的权重,为版块内的资源内容的提取提供一个重要影响因子。对版块内文本内容的索引是通过自动分词后,综合颜色、字体、大小、加粗等文本可视特性,并与版块权重因子结合,得到包含有可视特性的关键词倒排文档,从而实现可视化索引。对于图片、声音、视频等多媒体资源,则要结合资源内容,以视觉特征为基础进行索引。图片资源中人像的识别和音频资源中语音识别是最为关键的技术。第四章讨论了搜索引擎的可视化检索方法。信息可视化检索已经较多研究,本文重点是将这些研究与搜索引擎结合,主要研究了搜索引擎检索界面的可视化和搜索结果的可视化。检索界面的可视化包括检索式的可视化、基于示例的查询等,后者对于多媒体的检索是最为基本的功能。交互性是检索界面可视化的最重要部分。对于目录式搜索引擎来说,对层次目录数据的可视化也是一个重要方面。检索结果集的可视化由于具有了宏观信息和微观信息,能让用户发现更有价值的信息,其可视化的方法主要有基于聚类的方法、超链接法和语义内容法等。本章最后对三种重要的结果集属性的可视化进行了研究,包括聚类的可视化、关系的可视化、时间序列的可视化等。第五章研究了搜索引擎历史数据的可视化。搜索引擎中的历史数据主要包括两个方面:网页页面快照和搜索日志。通过对这些历史数据的挖掘,不但可以让用户获取更多的信息,还可以让搜索引擎改进自己的搜索方法,特别是排名算法。通过对页面快照的历史进行分析,可以让用户跟踪某页面的更新过程。本文用基于增量的方法实现了多个快照历史版本的存储,以及快照的全局可视化显示和局部可视化显示。搜索日志的挖掘主要研究了查询词频分析、地理搜索日志分析、会话分析等,并研究了其可视化挖掘的模型。第六章为案例分析。本文选取了Google和Wolfram|Alpha为研究案例,前者是最著名的搜索引擎,后者是2009年5月推出的一个较新的搜索引擎,二者具有不同的搜索模式,对二者的研究具有典型性。通过对Google的案例研究,得到的结论是在其搜索引擎中大量采用了各种可视化应用,并且其可视化应用研究正呈上升的趋势。Wolfram|Alpha以知识库和可视化模式库为基础,以直接回答的方式呈现搜索结果,而不是由用户自己去从结果集中搜索大量信息,虽然模式有很大变化,但也提供了很多的可视化模式对搜索结果进行可视化显示。可视化方法在搜索引擎中使用正越来越多,相关的研究也越来越多。可视化搜索引擎是各类技术与方法的集成,其功能与效果依赖于一些相关技术与方法,因此在对整体模型与框架研究的基础上,还需要对相关技术与方法的更深入研究,这正是下一步的工作。
其他文献
太原市作为山西省的省会城市,近几年来快速城市化引致的城市居住需求逐渐增长,房价连年上涨,受经济下行环境影响,居民短期支付能力低,租房成为流动人口解决住房问题的重要方式,但是租赁住房实践发展长期滞后,存在诸多问题。因此,本文将对太原市六城区的住宅租金的影响因素及其空间分异规律进行研究,为政府、出租者和承租者提供科学的决策依据。本文定性分析太原市住宅租赁市场的基本概况的基础上,从经典统计学和空间统计学
预应力施工属于PC梁隐蔽工程,其施工质量事关桥梁的承载能力和耐久性。智能张拉设备运用,品质工程建设等一系列措施推动了预应力施工质量的提高,但是现场检测结果还是暴露出
文章阐述了市政绿化树木移植的意义;说明了市政绿化树木移植的施工技术,包括前期施工的准备工作,树木移植施工,挖掘、包装及运输,种植,移植后的养护。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
居住权是每个公民应当享有的基本权利,中央政府在保障公民的居住权利上理应承担相应的职责。近年来随着政府职能的逐渐转变以及服务理念的更新,国家将越来越多的注意力聚焦于
对广东某抛石填海场地进行了12000k N.m、8000k N.m高能级强夯地基处理对比试验。试验过程中进行了隆起观测、分层沉降观测、孔隙水压力观测及振动衰减测试,试验完成后进行了
刑罚变更执行监督是确保司法公正、提升司法公信力的重要环节。司法实践中,检察机关和刑罚执行机关对罪犯是否“确有悔改表现”常常存在认识分歧,为充分体现检察监督的权威性
概念是学习任何一门学科的基础,它根据知识内容的不同,可以划分为科学概念和迷思概念两类。学生在学习科学概念时,由于各种因素的影响,头脑中存在较多的迷思概念,它们会对科学概念的学习产生阻碍。因此,探查学生头脑中的迷思概念,帮助学生掌握科学概念,成为生物概念教学的一项重要内容。本研究以高中生物“细胞的物质输入和输出”一章中的相关概念为研究的主要内容。首先从核心概念教学的重要性、生物学概念的特点以及“细胞
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文利用激光闪光光解手段,在Ti02和连苯三酚所组成的透过式体系中,通过考察连苯三酚溶液的浓度、pH值、溶解氧等条件对反应所产生的影响,探讨了光催化反应的微观机理。