【摘 要】
:
随着互联网的蓬勃发展,数据规模越来越大,数据的检索时间也急剧增加。近似最近邻检索旨在根据数据的相似性,从海量数据中,快速检索出与目标最相似的数据。哈希学习技术是提高最近邻检索速度的主要方法之一,其具有占用空间小、检索速度快等优点,近年来得到研究者的广泛关注。传统的哈希学习方法大多是对称的,即学习到的二值码都是来源于同一个哈希函数。随着相关研究的深入,有学者发现,非对称哈希学习方法的性能要优于传统的
论文部分内容阅读
随着互联网的蓬勃发展,数据规模越来越大,数据的检索时间也急剧增加。近似最近邻检索旨在根据数据的相似性,从海量数据中,快速检索出与目标最相似的数据。哈希学习技术是提高最近邻检索速度的主要方法之一,其具有占用空间小、检索速度快等优点,近年来得到研究者的广泛关注。传统的哈希学习方法大多是对称的,即学习到的二值码都是来源于同一个哈希函数。随着相关研究的深入,有学者发现,非对称哈希学习方法的性能要优于传统的哈希学习方法。非对称哈希方法通过联合优化多个哈希函数,有效地提高二值码的质量。然而,当前的非对称哈希方法还存在一些问题。第一,由于大部分非对称哈希方法都是采用计算二值码内积的方式实现非对称度量,在优化过程中计算复杂度较高。常用的优化策略是直接丢弃二值约束,以将离散问题松弛成连续问题,然后再将求得的实值特征量化成二值码。然而,这样生成的二值码信息损失大,其检索性能也会受到影响。第二,现有的非对称哈希方法普遍通过采样构造锚点图,仅利用到部分数据的监督信息,存在鉴别力不足的问题。虽然锚点图的引入可以减少方法的计算复杂度,但与此同时会使学习到的二值码质量受到影响,导致检索精度降低。针对计算复杂度高和鉴别力不足这两个问题,本文提出了一个改进的非对称哈希学习框架。所提出的框架通过构造一个二值码互相逼近的回归方程来代替计算二值码内积,从而实现非对称学习。此外,该框架充分利用已有的训练数据,使学习到的二值码尽可能地保持原始数据之间的相似性。本文的回归优化问题不需要松弛离散约束就可以直接优化得到二值码,同时还可以减少信息损失。本文以非对称哈希学习框架为基础,提出了三个方法:1)基于局部和全局结构信息的非对称哈希方法同时学习原始数据中的局部几何结构信息和全局结构信息,以此提高二值码和哈希函数的质量;2)鲁棒正交旋转非对称哈希方法通过引入L2,1范数作为损失函数的基本度量,有效地缓解模型对数据噪声的敏感度,从而提高算法的鲁棒性;3)正交语义非对称哈希方法通过引入正交旋转矩阵来降低信息损失,同时将标签矩阵直接投影成二值码,大大提高了模型的鉴别力。此外,本文还给出了算法的收敛性分析。实验结果表明,本文提出的非对称哈希方法比现有的哈希方法效果更好。
其他文献
投资是公司理财的核心内容,投资活动的成败直接关系到公司的稳定发展乃至生存。近几年来,我国上市公司投资效率普遍不高,部分公司出现了过度投资现象。过度投资会导致公司经营效率下降,降低公司价值。由此,如何有效抑制过度投资行为,对于保障公司健康发展、提升公司价值至关重要。理论上,股票回购作为发放现金股利的替代方式,减少了公司自由现金流,能够抑制公司过度投资行为。我国上市公司股票回购能否有效抑制过度投资,管
由于我国资本市场起步晚、发展不完善,股价崩盘现象时常发生,它扰乱了资本市场的运行规律,影响了投资者对资本市场的信心,甚至可能会对实体经济的稳健发展造成一定影响。在这一背景下,关于股价崩盘风险影响因素方面的研究越来越受到国内学者的关注。内部控制作为现代公司治理体系中的一种重要机制,目前已被投资者以及资本市场广泛认可,上市公司披露的内部控制缺陷信息是评价内部控制质量的重要信息之一,近年来越来越受到我国
图片马赛克作为一种艺术形式,已经在如广告、家具装饰、娱乐等诸多领域被广泛应用。传统意义上的马赛克合成方法通常使用纯色色块或具有一定纹理特征的图块作为算法输入,而图片马赛克则是使用由数据集检索所得的图片集合合成马赛克结果。由于图片马赛克作品中存在目标图像主题内容与合成图块视觉内容两种图像信息,因此图片马赛克合成结果的优劣主要集中于两个方面,一方面是整体上对目标图片主题内容的表达,另一方面是局部尺度上
度量学习是文本分类算法的主要研究问题之一。通过学习一个距离度量函数,将样本间距离转化为相似度,对原始数据分布进行重构,将原始数据映射到一个容易划分的拓扑空间。使两个具有同样标签的样本在新的编码空间内距离更近,两个具有不同标签的样本在新的编码空间内距离更远,从而具有更优的分类性能。近年来,不同学者结合深度学习方法的研究发现深度度量学习网络的性能显著优于传统度量学习方法,其核心是构造用于度量学习的深度
在近期生成式对抗网络的研究中,基于生成式对抗网络的人脸图像翻译领域工作取得了令人印象深刻的进步。现有的方法通常是使用判别器与生成器进行对抗来生成更逼真的图片,再辅以一个分类器约束来促进不同域之间的图像翻译从而达到最终的目的。但是他们忽略了一个非常重要的问题——域分布的匹配问题,即生成图像的分布与真实图像的分布并不相同。为了解决这个问题,本文提出了一种开关式生成对抗网络,这个网络具有一个更适合于多域
社交网络平台是近十年来互联网用户最广泛应用的大型信息系统,已经成为海量用户交流与资讯获取的重要渠道。其中,大众社交网络平台(微博、领英、QQ等)很少从研究领域或研究兴趣的角度组织用户和传播信息,因此又逐渐衍生出专为科研人员提供专业学术资讯的科研社交网络平台。这些平台通过提供用户搜索服务帮助科研工作者寻找合作伙伴,并借助推荐系统解决信息过载和需求不明的问题。目前,科研合作者推荐领域重点关注特征的选择
颜色是数据可视化中最重要的视觉通道之一。为不同的可视化任务设计适当的配色,既能促进数据隐藏模式的发现,也可以带来视觉美感。特别是在类别型数据的可视化展示中,合适的配色能美观且清晰地传达每个数据类别之间的关系,用户可以根据颜色快速感知到类别信息。但即便对于专业设计师来说,为给定的类别型数据设计合适的颜色映射也是比较困难的。用户往往使用可视化设计软件提供的配色模板,或ColorBrewer等软件建议的
中文分词问题的研究能够为其他中文处理问题提供更准确的特征。诸如:文本分类,信息检索,问答系统,机器翻译,机器阅读等研究问题都非常依赖中文分词。在应用方面,搜索引擎,舆情分析,翻译系统,智能问答系统等,也需要更好的中文分词来达到更好的效果。而且,随着中文文本数据的急剧增长,这些应用都面临着更多的挑战。在中文文本的特征工程中,中文的词是非常重要的特征之一,虽然中文字符也可以作为特征,但是相对而言语言中
随着物联网技术的不断发展,越来越多不同类型的传感器被运用到最新的电子产品中。电阻式传感器因其应用场景众多(如:温度、湿度、压力等物理量的感测)而备受业界关注。而作为连通自然界模拟量与计算机数据处理所用的数字量之间的桥梁,读出芯片(Readout IC,ROIC)向来是传感系统中不可或缺的一环。Sigma-Delta型模数转换器(Analog to Digital Converter,ADC)凭借过
子空间学习是图像特征提取的基本方法之一。子空间学习方法力图保持原始数据的某种结构信息或鉴别信息的同时将高维数据投影到低维子空间上,从而达到降维和获取最优鉴别特征信息的目的。然而,大部分子空间学习方法对噪声、野点和其它干扰等较为敏感,使得他们在实际应用环境中缺乏鲁棒性。近年来很多研究致力于提高子空间算法的鲁棒性,但它们在应用到图像特征提取与识别任务仍存在一些系列的问题。现有子空间学习方法存在的问题可