基于哈希算法的海量多媒体数据检索研究

被引量 : 0次 | 上传用户：dqylovezf1314

【摘要】

：

近邻检索问题是机器学习领域的一个基础问题,在信息检索、计算机视觉、数据挖掘等领域中都有着广泛的应用,例如以图搜图、人脸识别、k-means聚类等。近年来,随着互联网的快速

【作者】

：

金仲明

【发表日期】

：

2015年期

【关键词】

：

大数据近邻检索哈希算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近邻检索问题是机器学习领域的一个基础问题,在信息检索、计算机视觉、数据挖掘等领域中都有着广泛的应用,例如以图搜图、人脸识别、k-means聚类等。近年来,随着互联网的快速发展,海量多媒体数据随之而来。从多媒体数据中抽取出来的特征一般维度较高且稠密。如何对此类特征进行高效检索,成为了当前学术界和工业界炙手可热的研究内容。目前,主流的近邻检索方法包括基于树的方法和基于哈希的方法这两种。其中,许多基于树的近邻检索方法对特征空间进行树结构的划分,其时间复杂度和空间复杂度都以维度d作为指数,所以当维度d变大时,这些方法的效率就受到了限制。相反地,基于哈希算法的近邻检索方法是通过哈希函数(具有相似性保持的特性,即在原始特征空间中相似的两个特征数据在映射到汉明空间后汉明距离也近)将一个d维的特征编码成一个c位(一般地,c《d)的二进制串,并通过汉明排序或者哈希表来进行检索。其中,汉明排序可以使用硬件(XOR)来进行加速,而基于哈希表的检索时间复杂度是O(1),与维度d无关。由于哈希算法具有高计算效率与维度不敏感的优势,其已经引起了众多学者和专家的研究兴趣。围绕基于哈希算法的海量多媒体数据近邻检索方法这一重要问题,本论文开展了以下工作：(1)面向高效检索的哈希函数学习：基于哈希的近邻检索方法是以哈希函数为基础的,一个好的哈希函数应该能使用尽可能短的哈希编码得到相对较高的准确率。基于随机投影的哈希算法不考虑数据的分布,需要较长位数的二进制串才能获得较好的近似性能。而基于学习的哈希算法从数据的分布中学习出投影向量,能在较短位数的二进制串下获得较好的性能。我们从衡量哈希函数的优劣标准出发,提出了一种基于学习的哈希算法一互补投影哈希算法。其是一个既保持数据的近邻性质(保证检索准确率),又考虑哈希桶均衡性(保证检索速度)的哈希函数学习方法。该算法的提出为基于哈希的高效检索奠定了基础。(2)跨媒体数据的哈希函数学习：海量多媒体(文本、图像、视频、音频等)数据的出现,使得面向跨媒体数据的哈希函数学习变得尤为重要。其要求学习出的哈希函数能够使不同媒体之间的关联体现在哈希编码中,即具有相同概念的多媒体数据在编码后应具有相同的二进制串。为此,我们提出了迭代多视角(Multi-View)哈希算法。其是一个同时保持同模态相似性和跨模态相似性的跨媒体哈希函数学习方法。其中,相似性的保持不止体现在对于相似数据要拥有相似的哈希编码,也体现在不相似数据要拥有不相似的哈希编码(独特性)。该算法的提出为跨媒体数据的哈希函数学习提供了一个良好的优化框架。(3)优化的基于哈希表结构的快速近邻检索：目前,相比基于树结构的近邻检索方法,基于哈希表的近邻检索方法未能展现出明显的优势。其主要原因在于目前的哈希算法为了达到高准确率和高召回率,通常需要扩展汉明半径来进行搜索,这使得检索时间大大增加。为了消除这个瓶颈,我们提出了迭代扩展哈希算法,其在线上使用一个辅助索引来对使用小汉明半径检索到的点做迭代扩展,以此来保证高准确率、高召回率和低检索时间。该算法从本质上提升了基于哈希表的近邻检索性能,为线上海量数据的实时搜索提供了有力保障。

其他文献

胱抑素C浓度变化在肾脏疾病诊断中的临床意义研究

目的探讨血清、尿液中胱抑素C浓度在肾脏疾病中的诊断意义。方法选取正常体检者、确诊肾小球受损但肾小管未受损者、确诊肾小球与肾小管均受损者各31例,分别检测其血清和尿液

期刊

胱抑素C肾小管肾小球

侧前路钢板固定结合注射性硫酸钙椎体成形术治疗骨质疏松性胸腰段多椎体压缩性骨折

[目的]探讨侧前路钢板固定结合椎体成形术治疗骨质疏松性胸腰段多椎体压缩性骨折的效果。[方法]对22例患有骨质疏松性多椎体压缩性骨折的病例,进行侧前路钢板固定结合注射性

期刊

胸腰段侧前路骨质疏松压缩性骨折硫酸钙椎体成形术

山东能源集团:打造“人才高地”赢未来

<正>多年来,山东能源集团提出了"打造国际化、现代化大型能源集团,力争‘十二五’期间进入世界500强行列"的奋斗目标。为此,该集团明确了人才作为第一资源的发展理念,将人才

期刊

人才高地领军人才现代物流

从个案角度探析大学生德育评价方法的优劣及运用

大学生德育评价在工作实际中效果究竟如何,具体操作过程是怎样的呢?作者重点对某高校德育评价进行了调查研究,试图从个案分析的角度,得出某些具有共性的认识和结论,以期对我

期刊

德育评价方法比较大学生

我国主板退市标准的反思与重构——基于上市公司信用的视角

上市公司是证券市场的最重要主体之一,除了具有普通商事公司的净资产信用外,还具备特殊的信用基础。主要表现为上市公司应当愿意并且能够满足股票持有者尤其是中小投资者实现

期刊

退市标准上市公司信用流动性可持续发展信息信用

生命周期视角下的股权制衡与企业价值

本文将企业生命周期作为约束条件纳入股权制衡与企业价值的关系分析。在划分上市公司企业生命周期和最终控制人性质的基础上,匹配2004-2006年符合股权制衡与一股独大条件的对

期刊

股权制衡企业价值企业生命周期最终控制人

“剧场”概念的引进与剧场观念的确立——重读周贻白的《中国剧场史》

周贻白借鉴西方的"theater"概念,最早开始探寻戏曲的剧场性特征。他的《中国剧场史》一书从"剧场的组织"、"剧团的组织"、"戏剧的出演"三个方面,首次对戏曲的早期剧场形态进

期刊

周贻白剧场戏剧《中国剧场史》

医疗纠纷的现状、成因及对策思考

我国的医患矛盾日益突出,医疗纠纷呈增长趋势,同时,医疗纠纷解决机制的各种弊病也不断暴露出来,医疗纠纷解决现状令人堪忧。医疗纠纷事件的频发及后果对医疗行为影响较大,了

期刊

医疗纠纷医疗事故对策

中西医结合治疗膀胱癌血尿15例疗效观察

<正> 1984年2月～1995年2月,我们对门诊所见15例膀胱癌持续血尿病人,给予中西医结合治疗,(其中术后11例,未经手术4例,均为县市级以上医院活检确诊)着重观察其止血尿和愈后报告

期刊

中西医结合治疗桃仁承气汤水牛角胃肠道反应

诊治外感热病为提高中医学术及医疗水平的关键——薛伯寿教授治疗外感热病学术思想系列之一

历代名医家不断发展创新了外感热病治疗经验。蒲辅周老中医以善治热病而驰名,薛伯寿教授追随蒲氏十三载,全面继承其擅长治疗外感热病经验的同时有所发挥,认为"外感热病是中医

期刊

外感热病中医薛伯寿

基于哈希算法的海量多媒体数据检索研究

与本文相关的学术论文