基于相似性哈希的图像暗数据价值评估方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tornadohearwind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算和互联网的快速发展,数据的指数级增长对其存储与管理带来了巨大的挑战。暗数据作为一种无标签无关联的数据资源,一直占据着大量的存储空间,却难以在当下发挥价值。若用户盲目的对暗数据进行数据挖掘,可能会导致巨大的成本浪费。因此,在对暗数据进行挖掘之前,先对它进行语义分析和价值评估具有着重要意义。本文通过研究图像哈希算法及图结构排名算法在暗数据价值评估方法上的应用,设计和实现了一套基于相似性哈希的图像暗数据价值评估框架。该框架包含离线分析和在线评估两个阶段。离线分析阶段,首先使用能够提取图像语义特征与相似性关系的DSTH(Deep Self-taught Hashing)算法完成图像暗数据到语义哈希码的映射。然后,以哈希码作为图节点,根据汉明距离构造哈希图谱。最后,以节点连接的边数和边上权重作为考量,使用SHR(Semantic Hash Ranking)算法计算每个图像节点的重要性分数及排名。在线评估阶段,首先使用相同的DSTH模型将用户输入的查询图像转化为哈希码,然后通过预定义的汉明距离查询范围匹配数据,并根据匹配数据的加权重要性得分平均值表示其重要程度,帮助用户认知该暗数据集是否适用于此类查询图像的挖掘。测试结果表明,本文提出的暗数据价值评估框架能够应用于大规模图像暗数据,对图像进行具有泛化能力的语义哈希表达,并能够根据图像哈希码建立的图谱正确计算图像的重要性分数。在此基础上,还能通过设定客观的评价标准处理用户对不同挖掘任务的查询请求,帮助用户发现暗数据的潜在价值,开展后续的数据分析工作。
其他文献
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术是利用传感器进行自动定位并实时构建地图的技术。传统SLAM算法多用于PC端。仅基于视觉的SLAM算法受环
由于群速度色散和自相位调制之间的相互平衡,光孤子可以在光纤中长距离传输且形状不发生改变,因为这一特性,孤子可以在光纤通信系统中实现远距离和大容量传输,并可以应用在很
新时代的教育教学改革提倡自主探索、合作的学习方式,协作学习作为一种典型群体知识建构方式备受诸多学者关注。当前研究者较多关注计算机支持的在线协作学习,但无论在线学习
随着信息化时代的快速发展以及互联网技术的不断提升,导致许多行业产生的数据样本呈指数级别增长,数据维度也在不断攀升。受“数据爆炸”、“维度灾难”的影响,传统的聚类算
随着全球范围内单倍体造血干细胞移植(Haploidentical stem cell transplantation,Haplo-SCT)技术的成熟和数量的增加,寻找Haplo-SCT的最佳供者已经成为临床医生需要解决的至关重要的问题。目前Haplo-SCT供者选择的原则并不明确。我们回顾性研究了我们单中心连续8年的基于低剂量抗胸腺细胞球蛋白(anti-T-lymphocyte globulin,
遥感影像中的云图检测对遥感影像的后续应用具有重要意义。目前,遥感卫星影像在农业生产、天气预报、自然灾害预测、军事科技、地理测绘、变化检测、水利交通等领域应用得越
超冷里德堡原子由于其独特的物理性质被应用于越来越多的物理实验研究中。经过30多年的发展,冷原子为许多基础理论的研究提供了理想的实验平台,如玻色爱因斯坦凝聚的基本性质
Majorana费米子的反粒子是其自身,它满足Non-Abelian(非阿贝尔)统计,是容错拓扑量子计算的有效候选之一。自Majorana费米子被提出以来,对它的寻找从未停止。最近人们发现在拓扑
改革开放以来中国经济快速增长的同时,区域经济发展不平衡问题也日益突出。尤其是区域经济发展分化态势加剧、增长动力极化现象日益突出。区域经济发展的空间格局正在发生深
图像描述任务致力于赋予计算机“看图说话”的能力,即在给定输入图片的条件下自动生成符合自然语言表达习惯且真实反应图像内容的文字序列。该任务通常会采用图像识别模型或