论文部分内容阅读
摘要:[目的/意义]移动视觉搜索是智慧图书馆知识服务创新的重要内容。移动环境下,根据动态变化的情境推断用户意图,为用户提供合适的资源是智慧型知识服务的必然要求。[方法/过程]在分析融合情境的智慧图书馆移动视觉搜索服务模型构建动因的基础上,归纳模型的内在特征,对模型体系框架和关键问题进行了设计和论述,并提出相应的技术要点。[结果/结论]将情境计算应用于移动视觉搜索服务中,是弥补语义鸿沟、提高查询相关度和用户满意度的有效途径。该研究可为智慧图书馆个性化知识服务的优化提供参考。
关键词:智慧图书馆:移动视觉搜索:情境感知:知识服务
DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .006
[中图分类号] G254. 929.1 [文献标识码]A [文章编号]1008-0821( 2019) 12-0046-09
随着物联网、云计算、大数据和人工智能等信息技术的高速发展,以及用户对深层次、个性化、泛在化知识服务的质量要求的不断提高,图书馆学界掀起了一场“智慧”革新。智慧化已成为图书馆未来发展的必然趋势、主导模式和最高形态[1]。智慧图书馆以数字化、智能化、网络化的信息技术为基础,其真正的内在特征表现为互联、高效和便利[2]。图书馆应借助智能技术,敏锐感知读者情境,充分理解读者需求,无缝嵌入到读者的工作、科研、学习活动中,提供资源类型丰富、高效率、泛在化、个性化的智慧型知识服务。
由于大数据技术的发展以及一系列文化资源数字化工程的开展,以图书馆为代表的一批文化服务机构生成、积累了大量的视觉资源,图像、视频、几何模型、地图等视觉资源逐渐成为知识内容的重要信息载体。与此同时,随着移动互联网产业的高速发展,移动智能终端的普及,以及云计算和大数据等技术应用的不断深入,用户对多媒体信息的移动便捷性、查询意图精确性提出了进一步的要求。移动视觉搜索( Mobile Visual Search,MVS)以智能手机、平板电脑等移动终端为载体,从摄像头获取现实对象的图像或视频作为检索对象,通过无线网络查询视觉对象及其关联信息并在移动终端显示[3]。用户使用移动智能终端的摄像头捕捉视觉对象并利用触摸屏交互修正查询意图进行检索,相比于传统的检索模式,由手动输入文本关键词转变为文字、图像、体感及情境信息的综合输入,检索信息更丰富,交互性更强,因此有助于减少查询的语义鸿沟,提升用户体验。可以看出,图书馆借助MVS技术扩展其信息资源检索服务模式有其合理性和可行性,能够更好地为读者提供智慧化知识服务,二者的有机结合势在必行。
在图书情报领域,目前研究主要集中于移动视觉搜索服务机制和资源建设,仅仅意识到用户移动情境的动态变化特性导致了用户个性化信息需求的变化,较少有全面研究融合情境的智慧图书馆MVS的构建动因、内在特征与体系架构;缺乏深度挖掘用户在MVS任务下的情境要素与情境感知需求,而用户情境感知才是真正关系到MVS结果质量,决定了智慧图书馆信息服务的精准性。针对这些问题,本文将情境计算应用到MVS服务中,针对MVS的特点采用分层和模块化思想,构建了融合情境的智慧图书馆MVS服务模型,分析其内在特征、体系框架及关键问题,为移动情境下智慧图书馆知识服务优化提供思路。
1 相关研究
1.1 移动视觉搜索
2009年,在斯坦福大学主办的第一届移动视觉搜索研讨会上首次系统提出移动视觉搜索概念,吸引了学术界和产业界的广泛关注。目前MVS在国外市场营销、电子商务、旅游服务等领域已有较为成熟的应用,如谷歌“Goggoles”、亚马逊“Snaptell”和“Kooaba”,在国内,淘宝、京东等电商平台上也已推出了移动图像搜索人口。学术界研究的重点在技术发展和理论研究两方面。
Girod B等[3]提出了一个完整的MVS流程,包括特征提取、特征匹配和几何验证等,对各环节设计了适用于移动环境的技术解决方案。为了更好地应对移动环境下设备内存、电量、网络带宽有限的挑战,一些新的移动视觉识别方法被开发出来改善MVS体验,研究者提出了一些压缩视觉特征的移动端编码方法,例如SURF[4]、ChoC[5]、BoHB[6]。除了分析圖像内容,情境信息(位置、时间、方向等)也被利用来提高视觉识别性能,例如,Chen D M等利用GPS信息缩小搜索空间,进行地标图片识别[7]; Ji R等设计了基于GPS的词汇编码,实现了对移动地标搜索的极低比特速率查询传输[8];Runge N等建议使用位置名称和时间段来标记图像[9]。
国内图书馆领域对MVS的研究主要集中在服务机制探讨、视觉资源建设和应用实现3个方面。张兴旺等分析了数字图书馆移动视觉搜索机制建设的内涵、分类和架构设计,提出软硬件资源局限性、用户体验质量、用户需求多样性、协同管理、互操作性等关键要素[10]。赵宇翔等提出了移动视觉搜索在大数据环境下的游戏化机制设计[11]。李晨晖等对基于大数据的文化遗产领域移动视觉搜索机制的基本原理、业务流程、体系结构、功能模块等进行了研究[12]。张亭亭等提出建设数字图书馆移动视觉资源库的众包模式[13]。齐云飞等探讨关联数据在移动视觉搜索方法中的应用,实现了语义搜索和移动视觉搜索的融合[14]。曾子明等将去中心化思想和云计算、区块链等技术应用于智慧图书馆MVS资源管理[15]。胡蓉等以学术期刊中文内图像为研究对象,探索文内视觉资源的移动搜索实现框架并开发原型系统进行了验证[16]。
1.2 情境感知
目前学术界普遍采用Dey的关于情境的定义:情境( Context)是指任何可以描述实体特征的信息,该实体可以是与人和应用的交互相关的物理或虚拟的对象,包括人和应用本身[17]。情境感知( Context Awareness)是试图利用人机交互或传感器提供给计算设备关于人和设备环境等情境信息,并让计算设备给出相应的反应,实际上反映了从以计算机为中心到以人为中心的转变[18]。图书情报领域对情境感知的研究主要关注理论探讨和方法研究方面。潘旭伟等提出采用本体和情境感知的方法实现自适应的个性化信息服务,以解决获取用户信息需求的准确性、可靠性和自适应性较差等问题[19]。袁静认为具有环境导向性、情景适应性、智能性和主动性等特征的个性化情景感知服务是图书馆信息服务未来发展的方向,可应用于检索、推荐和咨询等服务[20]。李枫林等基于本体建模、语义关联的实例相似度算法和情境后过滤模式为用户推荐符合当前情境和用户兴趣偏好的项目,并进行实验验证了方法有效性[21]。陈氢等采集多维情境数据提取用户特征,再结合情境的相似度为用户进行个性化推荐[22]。周朴雄等结合BP神经网络方法和项目协同过滤算法实现情境化信息推荐[23]。 1.3 融合情境的智慧图书馆MVS服务
国内外学者已对融合情境的移动视觉搜索进行了一定的研究,提供了理论基础和技术支持,部分研究引入情境信息优化视觉特征提取与表示方法,但大多数研究对融合情境的智慧图书馆MVS服务需求、特征和关键问题等挖掘不够深入。目前,图书馆领域对情境感知的研究也主要集中在个性化资源推荐方面,将其应用于移动视觉搜索服务的研究还很少。智慧图书馆知识服务以用户需求为根本出发点,不断优化其服务手段,为用户提供精准化、人性化的服务[1]。移动环境下用户情境和信息需求易变,采集移动情境信息并挖掘用户个性化需求,在移动视觉搜索流程的各个环节融合情境因素,为用户提供便捷、高效、互联的搜索体验,实现泛在智能的嵌入式知识服务。因此,研究融合情境的MVS模型对提升智慧图书馆个性化知识服务水平具有积极意义。
2 构建融合情境的智慧图书馆MVS模型的动因分析
融合情境的智慧图书馆MVS模型的研究,目的是通过敏锐感知移动环境和捕捉用户行为、感受、反馈等情境要素,丰富视觉资源语义信息,在语义层面上理解用户偏好及查询意图,为用户提供个性化、敏捷化的信息服务和高质量的用户体验。可以从3个角度分析建设融合情境的智慧图书馆MVS模型的动因:服务过程,用户个性化需求,情境载体。
2.1 提供高效、智能化的MVS服务
服务过程的高效性是指利用GPS、时间、用户交互等情境信息来标记图像、重建视觉索引,系统能够缩小搜索空间、加快識别速度、优化结果排序,有效提高检索效率与准确性。服务过程的智能化是指系统通过图像内容分析和情境分析执行交互式半自动图像注释,从高层语义上理解查询视觉对象,减小图像底层特征和高层语义之间的语义鸿沟,提供与查询视觉对象相关联的图像、视频、音频、文本等多模态信息,提高检索结果的全面性与准确性。
2.2 适应大数据和移动交互环境下的用户个性化查询需求
大数据环境下,海量视觉资源带来“信息超载”问题,目前MVS系统单纯分析图像内容,这种固定、无差异的检索方式无法满足智慧图书馆用户在复杂场景、不同研究阶段、不同目的、不同偏好下的个性化搜索需求,因而无法真正解决“信息超载”问题。用户的信息需求与决策行为往往与其所处环境紧密相关。搜索研究专家Broder A指出第四代搜索引擎的核心是实现“情境驱动的信息服务( Context Driven Imformation Supply)[24]”,情境信息将在提高智慧图书馆移动视觉搜索质量中发挥非常重要的作用。移动交互环境下,用户和MVS系统的互动构建了有关用户环境、意图、认知信息的潜在情境信息库,将这些情境信息整合检索过程中,帮助系统增强对特定情境下用户真实查询意图的理解,以提高查询相关度和用户满意度,在“所见即所得”的基础上,进一步为用户提供“所得即所需”的MVS服务。用户的个性化视觉查询需求意味着将情境感知引入智慧图书馆MVS势在必行。
2.3 移动智能终端成为用户情境信息的载体
用户当前的移动智能终端搭载iOS、Android等智能操作系统和强大的多类型传感器系统,能够精准地获取用户各种类型的情境数据。一方面能通过物理传感器获取用户的环境情境信息,比如通过GPS传感器获取用户的地理位置信息;另一方面也能通过日志、监测软件等获得用户使用MVS服务的交互行为数据,理解用户的查询意图、期望和反馈,与用户的认知需求产生共鸣。因此,移动智能终端已成为获取用户情境信息的最佳载体,全面理解智慧图书馆MVS用户在文献调研、实地考察、参观展览等不同情境下的搜索意图并提供个性化服务成为可能。
3 融合情境的智慧图书馆MVS模型体系
在充分分析模型构建动因的基础上归纳其内在特征,面向融合情境的智慧图书馆MVS服务搭建一个系统框架,并探讨其中的关键问题。
3.1 融合情境的智慧图书馆MVS模型内在特征
根据构建模型的动因来看,融合情境的智慧图书馆MVS模型应当满足3方面要求:智能搜索体验,多模态资源融合输出,情境分析丰富、深化,应从用户体验、检索结果、应用场景3方面保障MVS服务质量,模型的主要特征如下:
1)智能搜索体验。考虑到移动视觉搜索的强交互性和高复杂性,为了减轻视觉识别和检索的负担,同时降低错误预测用户意图的可能性,提高用户满意度,MVS模型采用显性和隐性结合的情境感知交互模式。显性交互是指用户明确传达自我意图的输入行为。例如ROI( Region of Interest)兴趣热区检测,用户可以在智能手机的触摸屏上用手指勾勒出任意形状的图像作为感兴趣的视觉对象,在之后的视觉识别过程中,ROI的视觉特征将作为优先级信息,ROI周围的视觉对象特征作为辅助信息;以及智能终端将感知与计算的结果明确传达给用户的输出行为,例如智能终端通过视觉上的弹出框将系统建议的图像注释主动推送给用户。隐性交互是指不需要用户输入或者做出明确响应,智能终端主动获取并理解用户的情境信息(比如位置、设备状态等)。显性交互明确传达用户意图,加快视觉识别速度;隐性交互减少打扰和用户认知负担。有效结合两者并平衡两者关系可以为用户提供智能搜索体验。
2)融合情境的跨模态图像检索。移动视觉搜索并不只是简单的“以图搜图”,返回与查询图像视觉特征类似的图像,也应当返回与查询图像语义、用户偏好及当前情境相关的文本、图像、视频、网页等多模态信息。跨模态图像检索即查询和候选对象语义上相似但模态不同,如以图像搜索文本、视频等,其关键在于多模态数据的语义理解与关联表达,解决异构鸿沟问题,常用的方法有基于公共空间学习的方法和基于相关性度量的方法等[25]。同时,多模态数据之间存在着空间、时间以及内容关联关系,利用模态内和模态间的情境关联,可以增强多模态数据的语义关联,降低语义间隙,有效减小异构鸿沟。 3)情境分析丰富、深化。融合情境的MVS是以用户需求为核心,因此全面、深入的用户情境分析是其本质特征,体现在两个方面,一方面是情境采集内容多样化、深层化,既包括较为简单直观的环境和设备情境,如地点、时间、照相机参数等;也包括用户自身认知、兴趣、情感等深层情境。另一方面是指情境感知深入用户检索、学习的全过程,在制定视觉查询对象、检索匹配、结果输出、评价反馈、资源推送的整個过程中融人情境因素,生成用户、情境、资源多维关联模型,实现资源精准定位和丰富资源的情境属性描述。
3.2 融合情境的智慧图书馆MVS模型体系结构
情境感知计算包括情境获取、情境处理与识别、情境建模、情境应用等步骤,融合情境的智慧图书馆MVS服务模型应当是自底向上的包括传输感知层、情境处理层、视觉检索层、智慧应用层的完整体系,如图1所示。
1)传输感知层。传输感知层主要是对相关信息源和数据组织模块的描述,获取数字资源和情境信息并进行分析、组织和存储,是MVS服务的基础。数字资源包括各种馆藏信息、影像资料和数字文献等,应按照国内外通用的数据处理标准来规范资源的采集、标引、分类、关联等加工过程,构建数字资源的多维特征索引库。情境选择与特定领域相关,智慧图书馆MVS服务主要关注用户视觉检索的情境,用户信息需求受时间、地点、兴趣偏好、用户任务以及用户与系统的交互等一系列因素影响,因此主要采集以下3类情境信息:①用户情境,包括种族、语言、性别、年龄、职业等基本属性,以及个性、习惯、文化程度、兴趣偏好等个人主观性因素。②物理情境,指查询任务运行的物理环境,包括设备特性、地理位置、时间、网络通信状况、电量等,可通过搭载在移动设备上的物理传感器获得,或者提取记录照片属性信息和拍摄参数的Exif(Exchangeable image file format)信息。③查询情境,指用户检索过程中与系统之间的交互,包括制定ROI兴趣热区、用户标注图像等,可通过监测工具或问卷采集用户行为和反馈数据。情境数据处理模块主要是通过数据融合、数据预处理、情境解释等技术对获取的原始情境数据进行分析和处理,提高数据质量,整合异构数据。情境解释是指通过访问网络数据源或定义推理规则将低级情境转换为高级情境,获取情境语义。由于情境数据中含有用户敏感信息,应采用切实可行的数据安全技术防止用户隐私信息泄露或非法使用。
2)情境处理层。情境处理层主要根据传输感知层所提供的情境信息,为智慧图书馆个性化MVS的实现提供核心支持。该层次相应地包含有模型定义、情境使用以及分析优化等主要模块。①模型定义:对情境、用户、视觉资源以及其它关联对象的特征进行有效的知识表示是实现个性化MVS的前提。情境建模是指以一种机器可处理的形式定义和存储多维情境数据[18],以支持个性化MVS中用户查询意图挖掘和资源匹配等推理活动。构建数据模型的方法多种多样,基于描述逻辑(Description Logic,DL)的网络本体语言OWL( Web Ontology Language)兼有本体语言的知识表达与共享能力和逻辑系统的描述与推理能力,被大量用于情境建模[26]。用户模型主要记录用户个人信息、兴趣偏好等信息。用户兴趣获取来源主要有用户添加的图像标签、对图像的操作信息(如查询,浏览,保存等)、对检索结果的反馈等。常用的用户兴趣表示方法主要有本体表示法、向量表示法和主题模型表示法[27]。多模态数据模型是对数据模态及模态间关系进行抽象和表示。②情境使用:情境推理主要根据用户当前情境信息,执行推理规则并通过数据挖掘、数据分析等技术来推导未知或隐藏的情境信息以及用户查询意图的相关信息。语义匹配主要基于用户、情境、资源的知识模型对查询视觉对象和在库资源进行语义相似度计算,为资源匹配和深度推荐提供知识支持。③分析优化:该模块主要通过分析历史数据和用户对查询结果的反馈信息,挖掘情境化的用户兴趣偏好,不断更新用户知识模型,优化推理规则,提高情境感知MVS服务的智能性与易用性。
3)视觉检索层。视觉检索层主要根据情境处理层所提供的信息,采用相应的移动图像检索技术来生成与用户情境及查询意图相似的最终检索结果,其基本实现流程如图2所示。首先,获取待查询视觉对象,进行视觉特征提取和聚合编码,视觉特征向量基于用户ROI进行加权处理,特征点距ROI区域中心点越远,其权重越低。然后计算其与在库图像的视觉特征相似度,并进行几何一致性校验,得到与查询对象相似的图像列表。在此基础上,利用情境信息进行基于文本语义的图像检索,包括文本相似度计算和情境语义相似度计算两个部分。采用文本相似度算法,用向量空间模型表征文本,计算文本关键词匹配度。随后基于本体模型计算情境属性语义相似度,确定各自权重计算文本语义综合匹配度,得到符合条件的相似图像和关联文本。最后综合两次检索结果,按相关度降序排列,同时为用户个性化推荐相关联的多媒体资源,即为融合情境的个性化MVS的输出结果。由于在检索过程中融入了用户所处的具体情境信息,发挥了情境语义、视觉内容对图像检索各自的优势,图文结合的结果呈现形式也有助于用户理解图像语义,因此本文所建立的个性化MVS模式是基于视觉内容和情境语义的混合图像检索模式。
4)视觉检索层。视觉检索层主要根据情境处理层所提供的信息,采用相应的移动图像检索技术来生成与用户情境及查询意图相似的最终检索结果,其基本实现流程如图2所示。首先,获取待查询视觉对象,进行视觉特征提取和聚合编码,视觉特征向量基于用户ROI进行加权处理,特征点距ROI区域中心点越远,其权重越低。然后计算其与在库图像的视觉特征相似度,并进行几何一致性校验,得到与查询对象相似的图像列表。在此基础上,利用情境信息进行基于文本语义的图像检索,包括文本相似度计算和情境语义相似度计算两个部分。采用文本相似度算法,用向量空间模型表征文本,计算文本关键词匹配度。随后基于本体模型计算情境属性语义相似度,确定各自权重计算文本语义综合匹配度,得到符合条件的相似图像和关联文本。综合两次检索结果,按相关度降序排列,同时为用户个性化推荐相关联的多媒体资源,即为融合情境的个性化MVS的输出结果。最后采取相关反馈策略重新调整相应特征权值,进行查询扩展,使得检索结果不断接近用户的查询意图。由于在检索过程中融入了用户所处的具体情境信息,发挥了情境语义、视觉内容对图像检索各自的优势,图文结合的结果呈现形式也有助于用户理解图像语义,因此本文所建立的个性化MVS模式属于基于视觉内容和情境语义的混合图像检索模式。 5)智慧应用层。智慧应用层主要负责为用户提供泛在化、协作化、个性化、智慧化、交互式的MVS知识服务。MVS使用户可以随时随地扫描检索获取感兴趣的相关资源,成为物理世界与互联网世界之间视觉对象关联的桥梁。例如,在智慧图书馆移动导览和特藏资源揭示方面,用户通过拍摄古籍、手稿、实物模型等实景进行搜索即可实时获取相关文本、音频、视频等數字化内容。社区共享是指利用社会网络分析、协同过滤等技术,当用户未检索到满意的结果时,可以求助于相似情境下的其他用户,也可以直接与该领域的专家沟通,实现社区内知识交流与共享。个性化推送根据用户的位置、时间、历史搜索记录等情境信息,向用户主动推送相关联和个性化的相关资源或资讯,例如用户在MVS系统中曾提交敦煌壁画图像查询任务,当图书馆新购进关于敦煌研究的书籍或是最近有关于敦煌研究的讲座时,用户将收到资源更新的实时提醒,通过实时感知用户应用情境,包括静态情境(职业、兴趣偏好等)和动态情境(位置、时间等),分析用户、情境和资源之间的关系,实现信息一对一精准推送服务,提高用户满意度。智慧应用层除检索人口外,还提供浏览、主题导航、个人信息管理、评价反馈等功能。主题导航模块把与用户感兴趣主题相关的知识体系系统化地展示给用户。用户可以完善个人信息,自定义情境推理规则,标注图像,评价反馈等。
3.3 融合情境的智慧图书馆MVS模型关键问题
移动环境的特点是高度动态变化,因此需要不断更新知识模型,构建资源语义网络;待查询的视觉对象携带丰富的情境信息,应加以利用;基于传感器的情境数据采集意味着数据的不完整和不确定性。在模型构建中,需要关注基于情境信息的图像标注、语义关联、稳健性保障等关键问题,全面保障模型实现。
1)基于情境信息的半自动图像标注。由于移动设备电量、网络带宽有限,移动视觉搜索技术目前关注图像底层视觉特征的提取,利用中层视觉特征进行图像分类必须使用更高维向量的形式,引发了“维数灾难”问题,加剧算法开销,难以在移动环境下应用。其次,在视觉上相似的图像,由于用户认知和拍摄环境的不同,用户理解的图像语义可能有很大差异。因此,应利用移动设备本身携带丰富情境信息这一特点,描述图像在时间、地点、事件等各方面情境信息的相似性,使用标签传播技术如K最近邻方法,将相似图像的标签推荐给待查询的视觉对象,用户执行交互式半自动图像语义标注,可以选择推荐标签,也可以手动输入自定义标签,根据用户自身认知丰富图像的语义描述,在一定程度上起到了弥补“语义鸿沟”的作用,同时也让更多用户参与到视觉资源建设中,提高读者交互体验。
2)基于多模态特征的视觉资源聚类分析。从互联网采集的视觉资源和馆藏虚拟资源有着丰富的多模态特征,除视觉特征外,还有文本信息,如图像附带的元数据信息、社会化标签等。应用增量层次聚类算法[28],分别基于图像内容相似性、空间、时间或主题相关性等进行聚类,形成分层聚类树结构。属于相同视觉内容类别的图像可能被划分到不同的地理或时间聚类中,反之亦然。通过这种互连的多模态聚类,可以实现图像高级语义自动预测,用户也可以根据多种图像特征(如内容、位置、时间等)来快速定位感兴趣的图像。利用可视化开发工具以直观、生动、富有交互性的图形形式来进行知识关联和揭示。例如,借助地理信息系统( GIS)实现视觉资源地图可视化,构建时空索引,将视觉对象围绕地理空间特征进行汇聚和组织。从时间维度对视觉资源进行分析,建立相关语义主题模型,训练得到视觉资源在时间维度下的主题分布,达到分类、聚类、模式发现和查询等目的。视觉资源的多维可视化呈现通过增强资源的关联性,实现知识聚合直观展示,帮助用户整体把握相关领域的知识结构,更加明确自己的信息检索方向,提高浏览效率。
3)稳健性保障。稳健性保障是融合情境的智慧图书馆MVS建模的重点工作,情境建模方面的稳定性表现为应该适应不断变化的用户习惯或环境条件,并且处理不确定和不完整的数据。不确定性数据处理,包括任意不确定性和认知不确定性[29]。任意不确定性是由统计变异性和固有随机性的影响引起的,反映为不精确的传感器读数;认知不确定性是由缺失数据或缺乏关于该数据的背景知识引起的,因而无法进行推理。处理不确定性数据的方法主要有:模糊逻辑方法,如使用模糊OWL和FiRE模糊推理引擎来表达和推断用户在分布式异构计算环境中的动态情境[30]:基于本体和基于规则的方法的组合可以高效率地解决语义不精确引起的不确定性问题:机器学习方法适用于情境意义较为复杂的应用,或者参与建模的特征数量较多的情况,适应性较强,但需要时间和数据来适应新的情况,对快速变化的环境不敏感。应根据实际情况和视觉资源的特点设计处理不完整和不完善信息的机制,对用户习惯和偏好的长期变化建模可以使用机器学习方法,捕获高度动态的移动环境变化时可以采用基于规则的方法,当无法执行可靠的推断时,可以利用人机交互界面询问用户问题以获得缺失信息,提高模型的适应性。
4 结语
移动视觉搜索技术的应用扩展了智慧图书馆的资源检索模式,为用户提供所见即所知的泛在化知识服务,移动智能终端上配置的各种传感器使得移动情境感知变得可行,具有情境感知能力的MVS引擎能够了解用户特征,提供个性化视觉搜索服务。本文提出一种融合情境的智慧图书馆移动视觉搜索服务模型,归纳其构建动因,分析其内在特征、整体架构和关键问题,以期为移动情境下智慧图书馆知识服务发展提供思路。后续的研究我们将深入到模型的具体构建中,从用户情境本体模型的构建到基于情境信息的图像标注,以及视觉对象语义描述和资源关联,尝试开发原型框架进行验证。
参考文献
[1]初景利,段美珍,智慧图书馆与智慧服务[J].图书馆建设,2018, (4):85-90, 95.
[2]王世伟.论智慧图书馆的三大特点[J].中国图书馆学报,2012, 38 (6):22-28. [3] Girod B, Chandrasekhar V. Chen D M, et al. Mobile VisualSearch [J]. IEEE Signal Processing Magazine, 2011, 28 (4):61-76.
[4] Bay H, Tuytelaars T, Cool L V.SURF: Speeded Up Robust Fea-tures[ C]. Proceedings of the 9th European Conference on Com-puter Vision-Volume Part I. Springer, Berlin, Heidelberg, 2006.
[5] Chandrasekhar V, Takacs G,Chen D,et al. CHoG: Com-pressed Histogram of Cradients A Low Bit-rate Feature Descriptor[P]. Computer Vision and Pattern Recognition, 2009. CVPR2009. IEEE Conference on, 2009.
[6] He J F, Feng J Y, Liu X L,et al. Mobile Product Search withBag of Hash Bits and Boundary Reranking[ P]. Computer Visionand Pattem Recognition( CVPR), 2012 IEEE Conference on,2012.
[7] Chen D M, Baatz G,Koser K, et al. City-scale Landmark Iden-tification on Mobile Devices[P].Computer Vision and PatternRecognition( CVPR), 2011 IEEE Conference on, 2011.
[8.] Ji R, Duan L Y, Chen J,et al. Location Discriminative Vocabu-lary Coding for Mobile Landmark Search[J].Intemational Journalof Computer Vision, 2012, 96 (3): 290-314.
[9] Runge N, Wenig D, Malaka R.Keep an Eye on Your Photos:Automatic Image Tagging on Mobile Devices[C]//lntemationalConference on Human-computer Interaction with Mobile Devices
关键词:智慧图书馆:移动视觉搜索:情境感知:知识服务
DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .006
[中图分类号] G254. 929.1 [文献标识码]A [文章编号]1008-0821( 2019) 12-0046-09
随着物联网、云计算、大数据和人工智能等信息技术的高速发展,以及用户对深层次、个性化、泛在化知识服务的质量要求的不断提高,图书馆学界掀起了一场“智慧”革新。智慧化已成为图书馆未来发展的必然趋势、主导模式和最高形态[1]。智慧图书馆以数字化、智能化、网络化的信息技术为基础,其真正的内在特征表现为互联、高效和便利[2]。图书馆应借助智能技术,敏锐感知读者情境,充分理解读者需求,无缝嵌入到读者的工作、科研、学习活动中,提供资源类型丰富、高效率、泛在化、个性化的智慧型知识服务。
由于大数据技术的发展以及一系列文化资源数字化工程的开展,以图书馆为代表的一批文化服务机构生成、积累了大量的视觉资源,图像、视频、几何模型、地图等视觉资源逐渐成为知识内容的重要信息载体。与此同时,随着移动互联网产业的高速发展,移动智能终端的普及,以及云计算和大数据等技术应用的不断深入,用户对多媒体信息的移动便捷性、查询意图精确性提出了进一步的要求。移动视觉搜索( Mobile Visual Search,MVS)以智能手机、平板电脑等移动终端为载体,从摄像头获取现实对象的图像或视频作为检索对象,通过无线网络查询视觉对象及其关联信息并在移动终端显示[3]。用户使用移动智能终端的摄像头捕捉视觉对象并利用触摸屏交互修正查询意图进行检索,相比于传统的检索模式,由手动输入文本关键词转变为文字、图像、体感及情境信息的综合输入,检索信息更丰富,交互性更强,因此有助于减少查询的语义鸿沟,提升用户体验。可以看出,图书馆借助MVS技术扩展其信息资源检索服务模式有其合理性和可行性,能够更好地为读者提供智慧化知识服务,二者的有机结合势在必行。
在图书情报领域,目前研究主要集中于移动视觉搜索服务机制和资源建设,仅仅意识到用户移动情境的动态变化特性导致了用户个性化信息需求的变化,较少有全面研究融合情境的智慧图书馆MVS的构建动因、内在特征与体系架构;缺乏深度挖掘用户在MVS任务下的情境要素与情境感知需求,而用户情境感知才是真正关系到MVS结果质量,决定了智慧图书馆信息服务的精准性。针对这些问题,本文将情境计算应用到MVS服务中,针对MVS的特点采用分层和模块化思想,构建了融合情境的智慧图书馆MVS服务模型,分析其内在特征、体系框架及关键问题,为移动情境下智慧图书馆知识服务优化提供思路。
1 相关研究
1.1 移动视觉搜索
2009年,在斯坦福大学主办的第一届移动视觉搜索研讨会上首次系统提出移动视觉搜索概念,吸引了学术界和产业界的广泛关注。目前MVS在国外市场营销、电子商务、旅游服务等领域已有较为成熟的应用,如谷歌“Goggoles”、亚马逊“Snaptell”和“Kooaba”,在国内,淘宝、京东等电商平台上也已推出了移动图像搜索人口。学术界研究的重点在技术发展和理论研究两方面。
Girod B等[3]提出了一个完整的MVS流程,包括特征提取、特征匹配和几何验证等,对各环节设计了适用于移动环境的技术解决方案。为了更好地应对移动环境下设备内存、电量、网络带宽有限的挑战,一些新的移动视觉识别方法被开发出来改善MVS体验,研究者提出了一些压缩视觉特征的移动端编码方法,例如SURF[4]、ChoC[5]、BoHB[6]。除了分析圖像内容,情境信息(位置、时间、方向等)也被利用来提高视觉识别性能,例如,Chen D M等利用GPS信息缩小搜索空间,进行地标图片识别[7]; Ji R等设计了基于GPS的词汇编码,实现了对移动地标搜索的极低比特速率查询传输[8];Runge N等建议使用位置名称和时间段来标记图像[9]。
国内图书馆领域对MVS的研究主要集中在服务机制探讨、视觉资源建设和应用实现3个方面。张兴旺等分析了数字图书馆移动视觉搜索机制建设的内涵、分类和架构设计,提出软硬件资源局限性、用户体验质量、用户需求多样性、协同管理、互操作性等关键要素[10]。赵宇翔等提出了移动视觉搜索在大数据环境下的游戏化机制设计[11]。李晨晖等对基于大数据的文化遗产领域移动视觉搜索机制的基本原理、业务流程、体系结构、功能模块等进行了研究[12]。张亭亭等提出建设数字图书馆移动视觉资源库的众包模式[13]。齐云飞等探讨关联数据在移动视觉搜索方法中的应用,实现了语义搜索和移动视觉搜索的融合[14]。曾子明等将去中心化思想和云计算、区块链等技术应用于智慧图书馆MVS资源管理[15]。胡蓉等以学术期刊中文内图像为研究对象,探索文内视觉资源的移动搜索实现框架并开发原型系统进行了验证[16]。
1.2 情境感知
目前学术界普遍采用Dey的关于情境的定义:情境( Context)是指任何可以描述实体特征的信息,该实体可以是与人和应用的交互相关的物理或虚拟的对象,包括人和应用本身[17]。情境感知( Context Awareness)是试图利用人机交互或传感器提供给计算设备关于人和设备环境等情境信息,并让计算设备给出相应的反应,实际上反映了从以计算机为中心到以人为中心的转变[18]。图书情报领域对情境感知的研究主要关注理论探讨和方法研究方面。潘旭伟等提出采用本体和情境感知的方法实现自适应的个性化信息服务,以解决获取用户信息需求的准确性、可靠性和自适应性较差等问题[19]。袁静认为具有环境导向性、情景适应性、智能性和主动性等特征的个性化情景感知服务是图书馆信息服务未来发展的方向,可应用于检索、推荐和咨询等服务[20]。李枫林等基于本体建模、语义关联的实例相似度算法和情境后过滤模式为用户推荐符合当前情境和用户兴趣偏好的项目,并进行实验验证了方法有效性[21]。陈氢等采集多维情境数据提取用户特征,再结合情境的相似度为用户进行个性化推荐[22]。周朴雄等结合BP神经网络方法和项目协同过滤算法实现情境化信息推荐[23]。 1.3 融合情境的智慧图书馆MVS服务
国内外学者已对融合情境的移动视觉搜索进行了一定的研究,提供了理论基础和技术支持,部分研究引入情境信息优化视觉特征提取与表示方法,但大多数研究对融合情境的智慧图书馆MVS服务需求、特征和关键问题等挖掘不够深入。目前,图书馆领域对情境感知的研究也主要集中在个性化资源推荐方面,将其应用于移动视觉搜索服务的研究还很少。智慧图书馆知识服务以用户需求为根本出发点,不断优化其服务手段,为用户提供精准化、人性化的服务[1]。移动环境下用户情境和信息需求易变,采集移动情境信息并挖掘用户个性化需求,在移动视觉搜索流程的各个环节融合情境因素,为用户提供便捷、高效、互联的搜索体验,实现泛在智能的嵌入式知识服务。因此,研究融合情境的MVS模型对提升智慧图书馆个性化知识服务水平具有积极意义。
2 构建融合情境的智慧图书馆MVS模型的动因分析
融合情境的智慧图书馆MVS模型的研究,目的是通过敏锐感知移动环境和捕捉用户行为、感受、反馈等情境要素,丰富视觉资源语义信息,在语义层面上理解用户偏好及查询意图,为用户提供个性化、敏捷化的信息服务和高质量的用户体验。可以从3个角度分析建设融合情境的智慧图书馆MVS模型的动因:服务过程,用户个性化需求,情境载体。
2.1 提供高效、智能化的MVS服务
服务过程的高效性是指利用GPS、时间、用户交互等情境信息来标记图像、重建视觉索引,系统能够缩小搜索空间、加快識别速度、优化结果排序,有效提高检索效率与准确性。服务过程的智能化是指系统通过图像内容分析和情境分析执行交互式半自动图像注释,从高层语义上理解查询视觉对象,减小图像底层特征和高层语义之间的语义鸿沟,提供与查询视觉对象相关联的图像、视频、音频、文本等多模态信息,提高检索结果的全面性与准确性。
2.2 适应大数据和移动交互环境下的用户个性化查询需求
大数据环境下,海量视觉资源带来“信息超载”问题,目前MVS系统单纯分析图像内容,这种固定、无差异的检索方式无法满足智慧图书馆用户在复杂场景、不同研究阶段、不同目的、不同偏好下的个性化搜索需求,因而无法真正解决“信息超载”问题。用户的信息需求与决策行为往往与其所处环境紧密相关。搜索研究专家Broder A指出第四代搜索引擎的核心是实现“情境驱动的信息服务( Context Driven Imformation Supply)[24]”,情境信息将在提高智慧图书馆移动视觉搜索质量中发挥非常重要的作用。移动交互环境下,用户和MVS系统的互动构建了有关用户环境、意图、认知信息的潜在情境信息库,将这些情境信息整合检索过程中,帮助系统增强对特定情境下用户真实查询意图的理解,以提高查询相关度和用户满意度,在“所见即所得”的基础上,进一步为用户提供“所得即所需”的MVS服务。用户的个性化视觉查询需求意味着将情境感知引入智慧图书馆MVS势在必行。
2.3 移动智能终端成为用户情境信息的载体
用户当前的移动智能终端搭载iOS、Android等智能操作系统和强大的多类型传感器系统,能够精准地获取用户各种类型的情境数据。一方面能通过物理传感器获取用户的环境情境信息,比如通过GPS传感器获取用户的地理位置信息;另一方面也能通过日志、监测软件等获得用户使用MVS服务的交互行为数据,理解用户的查询意图、期望和反馈,与用户的认知需求产生共鸣。因此,移动智能终端已成为获取用户情境信息的最佳载体,全面理解智慧图书馆MVS用户在文献调研、实地考察、参观展览等不同情境下的搜索意图并提供个性化服务成为可能。
3 融合情境的智慧图书馆MVS模型体系
在充分分析模型构建动因的基础上归纳其内在特征,面向融合情境的智慧图书馆MVS服务搭建一个系统框架,并探讨其中的关键问题。
3.1 融合情境的智慧图书馆MVS模型内在特征
根据构建模型的动因来看,融合情境的智慧图书馆MVS模型应当满足3方面要求:智能搜索体验,多模态资源融合输出,情境分析丰富、深化,应从用户体验、检索结果、应用场景3方面保障MVS服务质量,模型的主要特征如下:
1)智能搜索体验。考虑到移动视觉搜索的强交互性和高复杂性,为了减轻视觉识别和检索的负担,同时降低错误预测用户意图的可能性,提高用户满意度,MVS模型采用显性和隐性结合的情境感知交互模式。显性交互是指用户明确传达自我意图的输入行为。例如ROI( Region of Interest)兴趣热区检测,用户可以在智能手机的触摸屏上用手指勾勒出任意形状的图像作为感兴趣的视觉对象,在之后的视觉识别过程中,ROI的视觉特征将作为优先级信息,ROI周围的视觉对象特征作为辅助信息;以及智能终端将感知与计算的结果明确传达给用户的输出行为,例如智能终端通过视觉上的弹出框将系统建议的图像注释主动推送给用户。隐性交互是指不需要用户输入或者做出明确响应,智能终端主动获取并理解用户的情境信息(比如位置、设备状态等)。显性交互明确传达用户意图,加快视觉识别速度;隐性交互减少打扰和用户认知负担。有效结合两者并平衡两者关系可以为用户提供智能搜索体验。
2)融合情境的跨模态图像检索。移动视觉搜索并不只是简单的“以图搜图”,返回与查询图像视觉特征类似的图像,也应当返回与查询图像语义、用户偏好及当前情境相关的文本、图像、视频、网页等多模态信息。跨模态图像检索即查询和候选对象语义上相似但模态不同,如以图像搜索文本、视频等,其关键在于多模态数据的语义理解与关联表达,解决异构鸿沟问题,常用的方法有基于公共空间学习的方法和基于相关性度量的方法等[25]。同时,多模态数据之间存在着空间、时间以及内容关联关系,利用模态内和模态间的情境关联,可以增强多模态数据的语义关联,降低语义间隙,有效减小异构鸿沟。 3)情境分析丰富、深化。融合情境的MVS是以用户需求为核心,因此全面、深入的用户情境分析是其本质特征,体现在两个方面,一方面是情境采集内容多样化、深层化,既包括较为简单直观的环境和设备情境,如地点、时间、照相机参数等;也包括用户自身认知、兴趣、情感等深层情境。另一方面是指情境感知深入用户检索、学习的全过程,在制定视觉查询对象、检索匹配、结果输出、评价反馈、资源推送的整個过程中融人情境因素,生成用户、情境、资源多维关联模型,实现资源精准定位和丰富资源的情境属性描述。
3.2 融合情境的智慧图书馆MVS模型体系结构
情境感知计算包括情境获取、情境处理与识别、情境建模、情境应用等步骤,融合情境的智慧图书馆MVS服务模型应当是自底向上的包括传输感知层、情境处理层、视觉检索层、智慧应用层的完整体系,如图1所示。
1)传输感知层。传输感知层主要是对相关信息源和数据组织模块的描述,获取数字资源和情境信息并进行分析、组织和存储,是MVS服务的基础。数字资源包括各种馆藏信息、影像资料和数字文献等,应按照国内外通用的数据处理标准来规范资源的采集、标引、分类、关联等加工过程,构建数字资源的多维特征索引库。情境选择与特定领域相关,智慧图书馆MVS服务主要关注用户视觉检索的情境,用户信息需求受时间、地点、兴趣偏好、用户任务以及用户与系统的交互等一系列因素影响,因此主要采集以下3类情境信息:①用户情境,包括种族、语言、性别、年龄、职业等基本属性,以及个性、习惯、文化程度、兴趣偏好等个人主观性因素。②物理情境,指查询任务运行的物理环境,包括设备特性、地理位置、时间、网络通信状况、电量等,可通过搭载在移动设备上的物理传感器获得,或者提取记录照片属性信息和拍摄参数的Exif(Exchangeable image file format)信息。③查询情境,指用户检索过程中与系统之间的交互,包括制定ROI兴趣热区、用户标注图像等,可通过监测工具或问卷采集用户行为和反馈数据。情境数据处理模块主要是通过数据融合、数据预处理、情境解释等技术对获取的原始情境数据进行分析和处理,提高数据质量,整合异构数据。情境解释是指通过访问网络数据源或定义推理规则将低级情境转换为高级情境,获取情境语义。由于情境数据中含有用户敏感信息,应采用切实可行的数据安全技术防止用户隐私信息泄露或非法使用。
2)情境处理层。情境处理层主要根据传输感知层所提供的情境信息,为智慧图书馆个性化MVS的实现提供核心支持。该层次相应地包含有模型定义、情境使用以及分析优化等主要模块。①模型定义:对情境、用户、视觉资源以及其它关联对象的特征进行有效的知识表示是实现个性化MVS的前提。情境建模是指以一种机器可处理的形式定义和存储多维情境数据[18],以支持个性化MVS中用户查询意图挖掘和资源匹配等推理活动。构建数据模型的方法多种多样,基于描述逻辑(Description Logic,DL)的网络本体语言OWL( Web Ontology Language)兼有本体语言的知识表达与共享能力和逻辑系统的描述与推理能力,被大量用于情境建模[26]。用户模型主要记录用户个人信息、兴趣偏好等信息。用户兴趣获取来源主要有用户添加的图像标签、对图像的操作信息(如查询,浏览,保存等)、对检索结果的反馈等。常用的用户兴趣表示方法主要有本体表示法、向量表示法和主题模型表示法[27]。多模态数据模型是对数据模态及模态间关系进行抽象和表示。②情境使用:情境推理主要根据用户当前情境信息,执行推理规则并通过数据挖掘、数据分析等技术来推导未知或隐藏的情境信息以及用户查询意图的相关信息。语义匹配主要基于用户、情境、资源的知识模型对查询视觉对象和在库资源进行语义相似度计算,为资源匹配和深度推荐提供知识支持。③分析优化:该模块主要通过分析历史数据和用户对查询结果的反馈信息,挖掘情境化的用户兴趣偏好,不断更新用户知识模型,优化推理规则,提高情境感知MVS服务的智能性与易用性。
3)视觉检索层。视觉检索层主要根据情境处理层所提供的信息,采用相应的移动图像检索技术来生成与用户情境及查询意图相似的最终检索结果,其基本实现流程如图2所示。首先,获取待查询视觉对象,进行视觉特征提取和聚合编码,视觉特征向量基于用户ROI进行加权处理,特征点距ROI区域中心点越远,其权重越低。然后计算其与在库图像的视觉特征相似度,并进行几何一致性校验,得到与查询对象相似的图像列表。在此基础上,利用情境信息进行基于文本语义的图像检索,包括文本相似度计算和情境语义相似度计算两个部分。采用文本相似度算法,用向量空间模型表征文本,计算文本关键词匹配度。随后基于本体模型计算情境属性语义相似度,确定各自权重计算文本语义综合匹配度,得到符合条件的相似图像和关联文本。最后综合两次检索结果,按相关度降序排列,同时为用户个性化推荐相关联的多媒体资源,即为融合情境的个性化MVS的输出结果。由于在检索过程中融入了用户所处的具体情境信息,发挥了情境语义、视觉内容对图像检索各自的优势,图文结合的结果呈现形式也有助于用户理解图像语义,因此本文所建立的个性化MVS模式是基于视觉内容和情境语义的混合图像检索模式。
4)视觉检索层。视觉检索层主要根据情境处理层所提供的信息,采用相应的移动图像检索技术来生成与用户情境及查询意图相似的最终检索结果,其基本实现流程如图2所示。首先,获取待查询视觉对象,进行视觉特征提取和聚合编码,视觉特征向量基于用户ROI进行加权处理,特征点距ROI区域中心点越远,其权重越低。然后计算其与在库图像的视觉特征相似度,并进行几何一致性校验,得到与查询对象相似的图像列表。在此基础上,利用情境信息进行基于文本语义的图像检索,包括文本相似度计算和情境语义相似度计算两个部分。采用文本相似度算法,用向量空间模型表征文本,计算文本关键词匹配度。随后基于本体模型计算情境属性语义相似度,确定各自权重计算文本语义综合匹配度,得到符合条件的相似图像和关联文本。综合两次检索结果,按相关度降序排列,同时为用户个性化推荐相关联的多媒体资源,即为融合情境的个性化MVS的输出结果。最后采取相关反馈策略重新调整相应特征权值,进行查询扩展,使得检索结果不断接近用户的查询意图。由于在检索过程中融入了用户所处的具体情境信息,发挥了情境语义、视觉内容对图像检索各自的优势,图文结合的结果呈现形式也有助于用户理解图像语义,因此本文所建立的个性化MVS模式属于基于视觉内容和情境语义的混合图像检索模式。 5)智慧应用层。智慧应用层主要负责为用户提供泛在化、协作化、个性化、智慧化、交互式的MVS知识服务。MVS使用户可以随时随地扫描检索获取感兴趣的相关资源,成为物理世界与互联网世界之间视觉对象关联的桥梁。例如,在智慧图书馆移动导览和特藏资源揭示方面,用户通过拍摄古籍、手稿、实物模型等实景进行搜索即可实时获取相关文本、音频、视频等數字化内容。社区共享是指利用社会网络分析、协同过滤等技术,当用户未检索到满意的结果时,可以求助于相似情境下的其他用户,也可以直接与该领域的专家沟通,实现社区内知识交流与共享。个性化推送根据用户的位置、时间、历史搜索记录等情境信息,向用户主动推送相关联和个性化的相关资源或资讯,例如用户在MVS系统中曾提交敦煌壁画图像查询任务,当图书馆新购进关于敦煌研究的书籍或是最近有关于敦煌研究的讲座时,用户将收到资源更新的实时提醒,通过实时感知用户应用情境,包括静态情境(职业、兴趣偏好等)和动态情境(位置、时间等),分析用户、情境和资源之间的关系,实现信息一对一精准推送服务,提高用户满意度。智慧应用层除检索人口外,还提供浏览、主题导航、个人信息管理、评价反馈等功能。主题导航模块把与用户感兴趣主题相关的知识体系系统化地展示给用户。用户可以完善个人信息,自定义情境推理规则,标注图像,评价反馈等。
3.3 融合情境的智慧图书馆MVS模型关键问题
移动环境的特点是高度动态变化,因此需要不断更新知识模型,构建资源语义网络;待查询的视觉对象携带丰富的情境信息,应加以利用;基于传感器的情境数据采集意味着数据的不完整和不确定性。在模型构建中,需要关注基于情境信息的图像标注、语义关联、稳健性保障等关键问题,全面保障模型实现。
1)基于情境信息的半自动图像标注。由于移动设备电量、网络带宽有限,移动视觉搜索技术目前关注图像底层视觉特征的提取,利用中层视觉特征进行图像分类必须使用更高维向量的形式,引发了“维数灾难”问题,加剧算法开销,难以在移动环境下应用。其次,在视觉上相似的图像,由于用户认知和拍摄环境的不同,用户理解的图像语义可能有很大差异。因此,应利用移动设备本身携带丰富情境信息这一特点,描述图像在时间、地点、事件等各方面情境信息的相似性,使用标签传播技术如K最近邻方法,将相似图像的标签推荐给待查询的视觉对象,用户执行交互式半自动图像语义标注,可以选择推荐标签,也可以手动输入自定义标签,根据用户自身认知丰富图像的语义描述,在一定程度上起到了弥补“语义鸿沟”的作用,同时也让更多用户参与到视觉资源建设中,提高读者交互体验。
2)基于多模态特征的视觉资源聚类分析。从互联网采集的视觉资源和馆藏虚拟资源有着丰富的多模态特征,除视觉特征外,还有文本信息,如图像附带的元数据信息、社会化标签等。应用增量层次聚类算法[28],分别基于图像内容相似性、空间、时间或主题相关性等进行聚类,形成分层聚类树结构。属于相同视觉内容类别的图像可能被划分到不同的地理或时间聚类中,反之亦然。通过这种互连的多模态聚类,可以实现图像高级语义自动预测,用户也可以根据多种图像特征(如内容、位置、时间等)来快速定位感兴趣的图像。利用可视化开发工具以直观、生动、富有交互性的图形形式来进行知识关联和揭示。例如,借助地理信息系统( GIS)实现视觉资源地图可视化,构建时空索引,将视觉对象围绕地理空间特征进行汇聚和组织。从时间维度对视觉资源进行分析,建立相关语义主题模型,训练得到视觉资源在时间维度下的主题分布,达到分类、聚类、模式发现和查询等目的。视觉资源的多维可视化呈现通过增强资源的关联性,实现知识聚合直观展示,帮助用户整体把握相关领域的知识结构,更加明确自己的信息检索方向,提高浏览效率。
3)稳健性保障。稳健性保障是融合情境的智慧图书馆MVS建模的重点工作,情境建模方面的稳定性表现为应该适应不断变化的用户习惯或环境条件,并且处理不确定和不完整的数据。不确定性数据处理,包括任意不确定性和认知不确定性[29]。任意不确定性是由统计变异性和固有随机性的影响引起的,反映为不精确的传感器读数;认知不确定性是由缺失数据或缺乏关于该数据的背景知识引起的,因而无法进行推理。处理不确定性数据的方法主要有:模糊逻辑方法,如使用模糊OWL和FiRE模糊推理引擎来表达和推断用户在分布式异构计算环境中的动态情境[30]:基于本体和基于规则的方法的组合可以高效率地解决语义不精确引起的不确定性问题:机器学习方法适用于情境意义较为复杂的应用,或者参与建模的特征数量较多的情况,适应性较强,但需要时间和数据来适应新的情况,对快速变化的环境不敏感。应根据实际情况和视觉资源的特点设计处理不完整和不完善信息的机制,对用户习惯和偏好的长期变化建模可以使用机器学习方法,捕获高度动态的移动环境变化时可以采用基于规则的方法,当无法执行可靠的推断时,可以利用人机交互界面询问用户问题以获得缺失信息,提高模型的适应性。
4 结语
移动视觉搜索技术的应用扩展了智慧图书馆的资源检索模式,为用户提供所见即所知的泛在化知识服务,移动智能终端上配置的各种传感器使得移动情境感知变得可行,具有情境感知能力的MVS引擎能够了解用户特征,提供个性化视觉搜索服务。本文提出一种融合情境的智慧图书馆移动视觉搜索服务模型,归纳其构建动因,分析其内在特征、整体架构和关键问题,以期为移动情境下智慧图书馆知识服务发展提供思路。后续的研究我们将深入到模型的具体构建中,从用户情境本体模型的构建到基于情境信息的图像标注,以及视觉对象语义描述和资源关联,尝试开发原型框架进行验证。
参考文献
[1]初景利,段美珍,智慧图书馆与智慧服务[J].图书馆建设,2018, (4):85-90, 95.
[2]王世伟.论智慧图书馆的三大特点[J].中国图书馆学报,2012, 38 (6):22-28. [3] Girod B, Chandrasekhar V. Chen D M, et al. Mobile VisualSearch [J]. IEEE Signal Processing Magazine, 2011, 28 (4):61-76.
[4] Bay H, Tuytelaars T, Cool L V.SURF: Speeded Up Robust Fea-tures[ C]. Proceedings of the 9th European Conference on Com-puter Vision-Volume Part I. Springer, Berlin, Heidelberg, 2006.
[5] Chandrasekhar V, Takacs G,Chen D,et al. CHoG: Com-pressed Histogram of Cradients A Low Bit-rate Feature Descriptor[P]. Computer Vision and Pattern Recognition, 2009. CVPR2009. IEEE Conference on, 2009.
[6] He J F, Feng J Y, Liu X L,et al. Mobile Product Search withBag of Hash Bits and Boundary Reranking[ P]. Computer Visionand Pattem Recognition( CVPR), 2012 IEEE Conference on,2012.
[7] Chen D M, Baatz G,Koser K, et al. City-scale Landmark Iden-tification on Mobile Devices[P].Computer Vision and PatternRecognition( CVPR), 2011 IEEE Conference on, 2011.
[8.] Ji R, Duan L Y, Chen J,et al. Location Discriminative Vocabu-lary Coding for Mobile Landmark Search[J].Intemational Journalof Computer Vision, 2012, 96 (3): 290-314.
[9] Runge N, Wenig D, Malaka R.Keep an Eye on Your Photos:Automatic Image Tagging on Mobile Devices[C]//lntemationalConference on Human-computer Interaction with Mobile Devices