信息检索可视化的优势、实现技术以及存在的问题

来源 :中国学术研究 | 被引量 : 0次 | 上传用户:kayeyoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:信息检索可视化是信息可视化技术在信息检索中的应用,具有增加用户的认知能力、信息检索过程透明化、方便信息浏览、良好的人际对话和交流环境以及提高检全率和检准率的优势。论文介绍了可视化技术实现所需的映射技术和显示技术,并分析了不同的显示技术之间的异同点。此外,论文对目前信息检索可视化存在的未成系统的研究结构、屏幕的显示面积以及可视化的评价标准缺乏等问题进行了论述,认为信息检索可视化是信息检索的发展趋势和研究热点。
  关键词:信息检索;可视化;映射技术;显示技术
  信息检索可视化是信息可视化技术在信息检索中的应用,是指把文献信息、用户提问、各类情报检索模型以及利用检索模型进行信息检索的过程中不可见的内部语义关系转换成图形,在一个二维或三维的可视化空间中显示出来,并向用户提供信息检索的技术[1]。
  1.信息检索可视化的优势
  1.1增强用户的认知能力
  可视化检索则通过人类对图片处理的较强能力,将文本内容转化为空间的、图形的形式后,以直观地方式供用户浏览与分析,不再需要进行语言处理,从而减少人的认知负担。与此同时,检索结果的可视化,可以揭示文档中看不见得语义关系,通过一些空间属性如距离、长短、大小等来表示文档的相似性,可以便于用户快速地找到相关的文档,也方便用户理解检索到的信息之间的关联性,从而提高用户的认知能力。
  1.2信息检索过程透明化
  传统的信息检索系统对用户而言是一个不透明的黑箱,用户提交了提问式后,系统怎样分解用户提问式,怎么匹配提问词和标引词,怎样进行结果等等过程对用户而言都是不透明的,因此用户也无法对系统内部处理过程进行控制。一个可视化的信息检索环境使检索过程变得透明了,包括文献与提问的语义关联关系,文献与文献语义关联关系,信息发现过程,检索的显示等。这使得用户的检索更加容易、有趣,也大大增加了用户对信息检索过程的控制能力。
  1.3方便用户进行信息浏览
  在可视化的检索环境中,用户检索信息如鱼得水,各种各样的可视化检索技术充分利用了人们对图像处理的能力,既可以显示检索的核心信息,又以各种方式忽略或隐藏周围的细节信息。当用户点击检索结果时,可以很快发现感兴趣的领域,并且根据检索结果的语义关联性,可以研究相关兴趣领域,在一个兴趣领域里自然地过渡在另一个兴趣领域,同时还可以来回自由地在相关的兴趣领域寻找相关信息,这是传统的信息检索不能实现的。
  1.4提供良好的人机对话和交流环境
  信息检索过程应该是一个多回合的人机对话和交流过程。可视化的检索可视化的信息检索将人的因素引进系统内,在检索中可以发现检索结果之间的关联性,用户可以根据自己感兴趣的内容进行检索,不断获取所需的信息,也可以获取到相关领域的信息,这将会鼓励人的参与,促进人机对话,改善人机交流。
  1.5提高检全率和检准率
  信息检索可视化是数据可视化技术在信息检索领域的应用,可视化提高了信息相关性判别的效率,扩展了信息相关性判别的手段。信息用户可以通过图形界面与网络信息检索系统进行交互,评价检索过程中每次检索结果,优化提问或查询,从而提高查全率和查准率[2]。
  2.信息检索可视化的实现技术
  信息检索可视化的技术既包括信息检索的技术,也包括可视化的技术。而在可视化的实现技术中,映射技术以及显示技术是至关重要的,前者关系到采取何种算法将将不同的信息之间的语义结构进行呈现,后者则关系到如何将这种检索结果的语义结构以直观恰当的可视方式提供给用户浏览。
  2.1映射技术
  信息可视化过程中需要处理的数据为多维数据,而计算机处理及我们所能感知的数据一般为2维或3维数据。可视化映射技术主要用于把数据从多维空间映射到2维或3维空间以便于计算机处理。常用的映射技術主要有自组织映射(Self-Organizing Maps ,SOM),寻径网(Pathfinder, PFNET),多维尺度法(Multidimensional Scaling,MDS),潜在语义标引(Latent Semantic Indexing,LSI)等。
  (1)自组织映射(Self-Organizing Maps ,SOM)
  自组织映射(S0M)算法作为一种聚类和高维可视化的无监督学习算法,是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络[3]。其目标是把输入数据或信号的各种特征加以抽象和组织,并通过聚类作用将它们归并到不同的类目,同时保持拓扑结构的有序性,使输入中特征相似的数据或信号点在映射后处于相邻的空间。
  (2)寻径网(Pathfinder网,PFNET)
  寻径网PFNET可以用来生成网络导航图,从而进一步提高超媒体系统的导航机制。PFNET根据经验性的数据,对不同概念或实体间联系的相似或差异程度做出评估,然后应用图论中基本概念和原理生成一类特殊的网状模型[4]。它对不同概念或实体间形成的语义网络进行表达,从一定程度上模拟了人脑的记忆模型和联想式思维方式,主要应用于认知心理学和人工智能等研究方面。通过对寻径网的分析,可以对不同的概念、实体进行分层和聚类。
  (3)多维尺度法 (Multidimensional Scaling,MDS)
  多维尺度法(Multidimension Scaling,MDS)是一种用来发现被调查对象实证关系的方法,这种方法把对象可视化并在一个低维显示空间描绘它们的地理图像。它可以通过对相关对象进行多元探索和可视化数据分析,来揭示和阐述一系列相关方法的隐藏模型[5]。MDS的实际作用是可以用来分析各种距离或者相似的矩阵。这些相似性可以表达人们对文献之间相似度、基于共频引文的对象之间的相似度等的评价。   (4)潜在语义标引(Latent Semantic Indexing,LSI)
  潜在语义标引(Latent Semantic Indexing,LSI)的基本思想是文本中的词与词之间存在某种潜在的语义结构,并且可以通过统计方法寻找该语义结构。LSI通过奇异值分解,将文档向量和词(Term)向量投影到一个低维空间,使得相互之间有关联的文献即使没有相同的词时也能获得相同的向量表示[6],从而达到消除词与词之间的相关性,简化文本向量的目的。
  2.2显示技术
  可视化显示技术是指将经过聚类处理的文献信息在计算机上以图形的形式显示出来的技术。目前常用的可视化显示技术主要有Focus+Context, Cone-Tree,Tree一map, HyperbolicTree等。
  (1)Focus+Context技术
  Focus+Context(聚焦+上下文)技术又称为“鱼眼”可视化技术,它通过放大聚焦结点,同时缩小周边对象,将周围信息和以细节方式显示的焦点信息结合在一起,不但可以突出重点信息,也能够揭示信息上下文关系[7]。这种技术是基于人类视觉的观察特性而设计的,人们在现实生活中观察对象的时候,往往注重的某个对象的细节,而忽视了其它周围信息。Focus+Context技术假设用户既需要细节信息又需要周围信息,同时对这两种信息的需要程度不同。因此,Focus+Context技术可以实现这两种类型的信息结合在一个单一的(动态的)显示页面中。
  (2)Cone-Tree技术
  ConeTree(锥形树)技术是Robertson,Mackinlay和Card等提出的一种利用三维图形技术对层次结构进行可视化的方法,其基本思想是利用三维图形技术将传统的二维树形表示法扩展到三维空间[8]。
  ConeTree利用将父节点置于一个圆锥形的顶端,在底部圆上安排子节点。对于每一颗子树,采取同样的处理方法。因此,在整体上就形成了多个圆锥组成的锥形树。它将用户感兴趣的节点置于前面,当点击某个节点时,对应的圆锥就可以转到前面,方便用户获取所需信息。与此同时,每个锥体之间透明遮拦,可以保证每个锥体能够很容易被感知,还不会妨碍后面的锥体显示,这样又可以确保用户查找时不会遗漏相关的信息。
  (3)Tree一map技术
  Tree一map(树图)技术是Shneiderman等人提出的一种表示层次信息的可视化模型,这是一种空间填充式的可视化显示技术,其主要思想是将整个信息集合对应到一个区域,例如一个矩形区域。节点按照他们各自的层次占据相应的大小,矩形的面积表示相应节点的权重。同时,表示一个父节点的所有子节点的矩形被表示该父节点的矩形包围着。
  (4)Hyperbolic Tree技术
  Hyperbolic Tree(双曲线)技术是Lamping和Rao等提出的一种基于双曲几何的可视化和操纵大型层次结构的Focus+context技术[9]。这种技术在基于双曲线的圆形平面区域内显示层次结构信息,将更多的可视化空间用于显示层次结构中当前被关注的部分,同时又能把整个层次结构显示出来。
  双曲线树技术被用于开发浏览器、网站地图以及其它针对大型层次结构信息的可视化工具。特别适合浏览图库、文件系统、数据仓库、Web信息资源及其空间链接结构所包含的数据。
  (5)四种显示技术比较
  从上表可以看到,不同的可视化显示技术各有优点,但也不足,在信息检索可视化的应用中,要根据实际合理选择一种,或者将若干种技术整合在一起。
  3.信息检索可视化面临的问题
  3.1未形成系统的研究结构
  国内的信息检索可视化大多是对国外信息检索可视化的跟踪介绍,主要研究单位有武汉大学信息资源研究中心,中科院国家科学图书馆,中科院软件所及部分大学的图书情报学院和计算机学院等。尚处于研究的雏形阶段,未形成一个完整的研究体系。
  3.2屏幕的显示面积
  从理论上而言,如果检索到的信息越来,就需要向用户展示越多的模式和趋向。然而,显示的面积大小会受到电脑屏幕大小的影响。信息是海量的,然而屏幕可以显示的面积是有限的,在有限的显示面积上,信息越多,就会造成可视化环境非常拥挤,从而影响画面的清晰度,弱化对象间的差异,并让对象之间的交互关系的感知变得非常困难,这反而影响了用户检索信息。
  3.3评价标准
  信息检索可视化由于是对抽象体的描述,在在把它映射到二维空间后,对它的评价缺乏一种固有的准则,这对于可视化检索系统的研究是不利的。目前,尚未有为所有的信息检索可视化环境找到一个通用的评价系统。有许多问题,如可视语义框架的效率评价,视觉空间和用户行为中隐喻的影响,模糊,导航中的方向障碍等。因此,建立一个实际可行的信息检索可视化评价标准也是信息检索可视化必须要面临和解决的一个问题。
  4.结语
  俗话说,“一幅画胜过千言万语”。在读图的时代里,信息检索的可视化无疑是信息检索的一个新的发展点,它充分发掘了人类对图像的处理能力,提高了人类的认知能力。也使检索过程透明化,提高了用户的检索兴趣,提高了良好的人机对话环境等。虽然,信息检索的可视化目前还处于探索阶段,存在许多待解决的问题,但是我们相信,信息检索可视化的实际应用,已经不是遥不可及的梦想了。
  参考文献:
  [1]陈次白等.信息存儲与检索技术[M].北京市:国防工业出版社,2008,8:230
  [2]李爱国,汪社教.信息检索可视化[J].现代图书情报技术,2004,2:50-59.
  [3]杨占华,杨燕.SOM神经网络算法的研究与进展[J]. 计算机工程,2006,16:201-228.
  [4]周宁,张李义著.信息资源可视化模型方法[M].北京市:科学出版社,2008,08:128.
  [5](美)JIN ZHANG著.信息检索的可视化[M].北京市:科学出版社,2009,4:107.
  [6]孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007,9:49-53.
  [7]李春旺.信息检索可视化技术[J].现代图书情报技术,2003,6:44-49.
  [8][9]张学福.信息检索可视化基本问题研究[J].中国图书馆学报,2006,3:37-40.
  [10]陈颖.基于摘要信息的中文信息检索可视化系统研究与实现[D].黑龙江大学硕士论文,2007,5.
其他文献
摘 要:在公路桥梁的建造和使用中,常常因出现裂缝而严重影响工程质量甚至会出现桥梁垮塌的现象。所以克服和控制裂缝仍是亟待解决的问题。本文分析了混凝土桥梁裂缝的形成原因,提出了针对性的防治措施。  关键词:混凝土桥梁;裂缝;原因;防治  从桥梁工程建设的过程来看,从建成到使用,牵涉到设计、施工、监理、运营管理等各个方面。因此,对于混凝土桥梁裂缝的出现,其形成原因往往是多方面的,可能是设计疏漏,也可能是
期刊
党的十八届三中全会作出的《中共中央关于全面深化改革若干重大问题的决定》指出:“推进家庭经营、集体经营、合作经营、企业经营等共同发展的农业经营方式创新。”家庭经营、集体经营、合作经营、企业经营是从性质和组成上对农业经营主体的分类,但从经营规模和实力上看,企业经营、合作经营、集体经营、家庭经营有大有小,大的企业经营如山东的鲁花集团、湖北的福娃集团影响巨大,小的企业难以望其项背;合作经营、集体经营发育较
期刊
城市园林绿化是一项环境建设工程,也是人们生存的需要。它不仅仅能解决一个地区的绿化,更能改善整个城市的生态环境问题,有益于人类的可持续发展。城市园林绿地是人与自然和谐相处的产物,它以自身的综合功能提供良好的生态效益、社会效益和经济效益。  一、生态效益  城市园林绿化不仅能给人们提供游憩空间,美化环境,更重要的是对改善城市环境,维持生态平衡发挥作用。  1.1改善城市小气候  小气候主要指由于地层表
期刊
摘 要:杂草是林业生产的大敌,它对环境的适应性强,繁殖快,与苗木、作物争夺阳光、水分、肥料和空间,又是传播病虫害的媒介。因此,对除草剂分类及其在林生产中实现科学选择的途径问题进行探讨非常必要。  关键词:除草剂;分类;科学选择;应用  除草剂(herbicide)是指可使杂草彻底地或选择地发生枯死的药剂。其中的氯酸钠、硼砂、砒酸盐、三氯醋酸对于任何种类的植物都有枯死的作用,但由于这些均具有残留影响
期刊
摘 要:完形填空起初作为检测文章可读性的检测工具,现在已广泛应用于国内外的各种大型考试中。然而此项试题的得分率一直相对较低,针对这一现象,本文从错误分析的角度出发,对高中英语完形填空中的错误进行分析,找到错误的本质和根源,从而有效减少错误的发生。  关键词:高中英语;完形填空;错误分析  作为一种常见的测试题型,完型填空经常出现在许多大型语言测试中并引起了许多语言学者的注意。完型填空在高中英语中占
期刊
摘 要:景观绿化环境是城市建设规划不可缺少的重要部分,要达到合理布局、形式多样,首先应重视该区域环境的地方特色和建设本身的个性;其次是应根据城市区域规划的整体构思进行统筹考虑,譬如单体结合整体,选型结合色调,山地结合平地建设,平面结合空间等。最后,设计形式应多样化、元素布置应空间化、植物配置应体现层次丰富,总之绿化空间要充分体现协调、多样、丰富。城市的各种规划因素联系紧密,有公共活动的广场、公共建
期刊
语文教科书式语文学科教学内容优化和简化了的系统,是造就民族文化素质新一代,有效地实现语文教学目的的好教材。其内容包括阅读、写作、口语交际、汉语知识及运用等方面的知识和技能训练系统,运用语文教材教学,目的是全面提高学生的语文素质,提高学生正确理解和使用祖国语言文字的能力,培养学生热爱祖国语言文字的思想感情和民族共同语言的规范意识,并提高道德修养、审美情趣、思维品质和文化品位。开拓学生视野,培养创新精
期刊
摘 要:针对锌精矿冶炼生产工艺过程中对产生的烟气的余热利用和烟尘回收,设计开发了一种用于锌精矿冶炼余热回收的余热锅炉,并介绍分析了该余热锅炉的一些结构及主要特点。  关键词:锌精矿冶炼余热回收;余热锅炉;结构特点  前言  山西某锌精矿冶炼生产企业,为了对锌精矿冶炼产生的烟气余热充分回收利用及回收烟尘,拟配备一台余热锅炉,余热锅炉是利用沸腾焙烧炉供给的高温烟气的热焓来生产蒸汽。锌精矿沸腾焙烧余热锅
期刊
摘 要:新课程改革将教师的课程意识和课程能力提到了十分重要的位置,强调教学不只是忠实地实施计划、教案的过程,更是课程创新和开发的过程,教学过程要成为课程内容持续生成和转化的过程[1]。在新课程全面推广实施的今天,各地教育部门都在积极探索如何构建新课程背景下的一堂优质课,以期提高课堂质量,达到新课改的目的。一堂物理优质课不仅应该准确高效的传输知识,还要能体现新课程的思想,提高学生能力。本文就优质课的
期刊
摘 要:服装模特的形象设计是其在时尚领域中获取一席之地的重要路径之一,也是其进行职业规划和拓展专业的重要技巧之一。借鉴一下国际各大时装周秀场、各大时尚之都的时尚编辑、服装买手等时尚达人的装扮意识,我们就不难发现,个性的装扮、不俗的品味超前的意识以及良好的素养是服装模特的必备条件。  关键词:服装表演;形象设计;服装模特  随着经济的发展,时尚文化也随之发生了巨大的转变。模特行业已经日新月异,国内外
期刊