论文部分内容阅读
随着网络和信息技术的迅猛发展,互联网上的信息量呈爆炸式增长,面对网上海量的信息资源,传统搜索引擎以线性列表方式显示检索结果,不能揭示检索结果间的相互关系,而目前已有的可视化搜索引擎工具对大量检索结果的显示也不能兼顾全局与细节,用户很难对检索结果有较深的理解与把握。同时,用户对检索需求也不能准确表达,需要修改检索式进行反复检索,搜索引擎对用户修改检索式可提供适当的帮助。为了有效改善上述两个问题,进行可视化搜索引擎方面的研究有着重要的意义。
本文借鉴了相关领域的研究成果,采用理论与实验相结合的研究方法,在总结信息可视化、信息检索方面的理论与技术成果的基础上,对信息检索可视化进行了探讨和研究,最后开发了可视化搜索引擎原型系统。
本文首先从信息可视化的概念入手,对Card信息可视化简单参考模型进行了简要介绍,总结了目前信息可视化粗略的应用情况。进而就本文相关的信息检索向量模型、文档表示技术以及作为检索基础的相似度计算方法作了简要分析。然后本文依据Card信息可视化简单参考模型,结合信息检索技术,对信息检索可视化三个过程分别进行了研究,从理论角度分析了可视化搜索引擎设计与实现的相关内容。最后使用Java Servlet和Java Applet技术,开发设计了可视化搜索引擎原型系统。该可视化搜索引擎原型系统是一个可视化的元搜索引擎,以百度与Google为成员搜索引擎进行检索。通过聚类、特征提取分析检索备选词,通过可视化映射将信息映射为可视化结构。在客户端以可视化视图方式显示检索结果,并提供丰富的可视化交互操作,帮助用户理解检索结果集合、构造检索式。
本文在实验系统的设计过程中,尝试使用MMD聚类算法结合K-means聚类算法的方法进行文本聚类,相对于单独使用K-means,聚类效果和聚类速度都得到了改善。针对搜索引擎需要解决的两个问题,实验系统尝试将关键词权值引入信息检索可视化中,反映检索结果与检索式关键词之间的联系,通过权值调整细化检索结果与检索式关键词的相关程度。另外,通过对检索结果聚类后提取特征词,为用户提供备选检索词,在帮助用户准确构建检索式上,取得了一定的改善效果。