高维数据最近邻查询算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yeshi804883653
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据空间中的最近邻查询问题被广泛应用于数据库,图像检索和许多其它相关领域。受“维数灾难”的影响,这一问题变得越来越重要。本文研究且实现了DCR(Data Co-Reduction)算法。使用近年研究所得的联合聚类方法,DCR通过压缩原始数据集合的规模和维数,将高维数据集合压缩至更加紧密的子空间中。索引结构同K最近邻查询过程本文使用了过滤和精炼策略。本文通过使用联合聚类算法建立了更加紧确的距离下界。因此DCR算法能够有效提升k最近邻查询算法的效率。特别的,DCR算法通过同时考虑到数据集合规模和维数的二元性,实现了相似性查询的最优化。实验结果表明在大规模数据集合上DCR算法在过滤能力和查询响应时间两方面都有着优秀的性能表现。近年来,DCR算法被认为是K最近邻查询领域非常优秀的解决方法。然而,由于该算法在访问候选点时需要进行大量的随机I/O,效率上受到影响。为了保证返回结果的质量,需要访问足够多的查询对象,由此会带来大量的I/O开销。为了解决这一问题,本文提出了一个新的索引方法,ZOrder索引,该索引结构通过最大化单次I/O中访问候选点的数目,使得查询中磁盘页面I/O次数最小。本文的主要贡献可以总结为:首先,本文根据数据点的访问顺序定义了能够评估数据集合中两个数据点ZOrder编码之间距离的方式。由此能够得到数据集合对应的ZOrder编码集合的编码线序关系,并且根据该线序关系实现对数据点的排序。其次,本文证明了ZOrder索引算法能够将具有相似ZOrder编码的数据点存储在连续的磁盘页面。在最近邻搜索过程中,ZOrder索引算法在较少次数的硬盘内存间的I/O就能完成。在几次硬盘内存间I/O之后,便能得到足够多的候选点,从而不仅大幅度减少查询响应时间,也提高了返回结果的准确度。通过对真实数据集合上的实验,并同经典的最近邻查询算法的实验结果的比对分析,能够证明ZOrder索引算法良好的空间和时间效率。
其他文献
随着计算机网络技术和多媒体技术的迅猛发展,以视频会议,远程教育为代表的具有多播传输特性的多媒体业务不断涌现,并已在校园网和企业网中得到广泛的应用。多媒体多播业务发
学位
汽车牌照自动识别系统是目前交通部门十分重要的科研项目之一,在交通部门的违章检测(电子警察)、高速公路自动收费和智能停车场管理等方面有着广阔的应用前景。从实际场景中切
随着网络技术的飞速发展,网络传输速度不断提高,系统对关键网络设备的处理速度要求不断提高。IPSec VPN作为数据转发的安全平台,很容易成为网络系统的瓶颈。传统的IPSec VPN
数据库中间件是连接信息孤岛的“桥梁”,是所有中间件中应用最广泛、技术最成熟的一种。在集成异构数据库时,数据库中间件内在的优化和转换机制提高了数据访问的执行效率。然
数据挖掘是一种半自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中有用的信息和知识的过程。数据挖掘可以从数据中提取人们感兴趣的可用信息和知
履带式微小型机器人能够在室内或野外等各种复杂地域环境中工作,可被广泛运用在反恐、排爆、以及对危险环境的探测中,是陆军和国家安全新式武器装备中重要的便携式机动平台。
语音交互以语音识别和语音和成为基础,语音识别是将音频信息转换成文本或者其它形式的计算机能够处理的信息的技术。语音合成是将文本文件转换成语音信息。经过国内外多年的
随着Web Services技术应用的普及,企业或组织在应用这项新技术时非常有必要了解各种产品的特征和性能。 本论文首先详细描述了在.NET、Axis、JWSDP三个主流的Web Services
在通信网络中,组播是一种重要的通信方式,是一种一对多的连接类型的通信方式。随着网络技术的发展,组播在分布式系统、视频点等多媒体业务中得到广泛的应用。实现组播的关键