基于隐含语义哈希算法的相似性搜索研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lj780427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着IT技术的快速发展和广泛应用,多媒体数据呈现指数增长趋势。虽然多样性的海量数据为基于数据分析的智能化服务提供了丰富的原材料,但同时为数据的组织、分析和检索带来了前所未有的挑战。虽然传统的最近邻搜索方法在低维特征空间中的精确查找中很奏效,但无法有效解决高维度的多媒体数据带来“维度灾难”的难题。二进制哈希码在存储和计算方面具有绝对优势,因此哈希算法非常有潜力帮助人们从信息过载的阴影中走出来。基于隐含语义的数据感知哈希算法,在隐含语义层面分析数据间的关联性,跨越数据的底层特征和语义层之间的“鸿沟”,提供基于语义层面的相似性搜索。该算法考虑了数据在语义空间中的局部空间几何结构,尽最大努力维持数据在语义层面的近邻关系。为了使数据的表达方式符合人脑的认知过程,采用基于部件表达的方式将数据映射至隐含语义空间。此外,对数据的隐含语义表达添加稀疏化约束,以突出主要的隐含语义并消除其他微弱语义的干扰。为了生成紧凑高效的哈希码,采用空间分割的方法将数据从隐含语义空间投影至汉明空间,使得每一位哈希码具有最大的信息熵。最终,哈希函数被视为多个分类器的组合,从而将学习哈希函数的任务转化为多个分类器的学习。在公开数据集上的实验结果显示,基于隐含语义的哈希算法在准确率、召回率和MAP等评价指标上都超出了其他几个极具代表性的哈希算法。此外,基于分段哈希码的倒排索引树结构极大地提升了检索速度。基于多个哈希算法的排序列表的融合技术,大大提高了排序的准确率。
其他文献
摘 要:20世纪50年代,为解决中华人民共和国成立后全国档案事业对档案理论的迫切需求,在国际形势与国家外交政策的外在驱动下,在改变中国档案学“三无”现状的内在驱动下,在苏联档案学“镜像效应”的学术影响下,包括对苏联档案专家、苏联档案学科体系与苏联档案专业话语等诸多“苏联因素”的引进,成为中国现代档案学发展的重要变量。这一变量在老一辈档案学人自觉的档案学术意识指导下,促进了中国档案高等教育的创办与发
近年来,随着玉米种植面积的不断扩大,发生的病虫害问题对玉米种植生产造成了很大影响。基于此,从科学整地、种植品种选择、合理密植和水肥管理等方面,对玉米种植新技术的栽培
固海扬水工程中的输水渡槽,由于建设年代久,运行时间长,渡槽槽壳出现不同程度的渗漏水现象。分析了历年来采用不同方法进行渡槽渗漏水处理失效的原因。采用双组份聚脲新材料
陆游(公元1125-1210),字放翁,越州山阴(今浙江绍兴)人,南宋著名的爱国主义诗人.纵观放翁<剑南诗稿>(1~8册),涉及茶的诗竟有300余首,蕴藏着绚丽多姿的茶文化,可谓是一部"续茶经
目的探讨动静脉足泵联合前列地尔治疗对老年T2DM伴下肢动脉病变(LEAD)病人行走能力的疗效。方法选取2014年1月至2016年1月在我院内分泌科住院的老年T2DM合并LEAD病人94例,分
语文综合性学习有利于学生在感兴趣的自主活动中全面提高语文素养,是培养学生主动探究、团结合作、勇于创新精神的重要途径。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield