度量空间索引与查询技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:JackCF1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、互联网、通信以及定位技术的快速发展,科学计算、社会生活及工业生产不断产生出各类复杂数据。这些数据在形态上具有海量、高维、多源、异构、不确定/不完整等特征,因而需要借助于更广泛的空间模型,即度量空间。度量空间不受数据对象的几何特性限制,而只需要知道数据对象之间的距离度量方式即可。所以,度量空间具有更广阔的适用范围。  查询/搜索是计算机科学的基本问题,存在于目前几乎所有的计算机应用领域。为此,如何高效、智能地查询/检索数据,挖掘有价值的信息,服务于社会,理解和发现事物演化的规律,进而影响科技和社会的发展进程,已成为当今信息技术的重大挑战。  现有的(空间)索引和查询处理大多关注欧氏空间,使用多维向量表示数据对象,并用欧氏距离来度量对象之间的邻近关系。然而,在度量空间下,数据对象可能不存在维度信息且相似性的度量方式也不局限于欧氏距离。因此,欧氏空间下的索引与查询技术不能有效地解决度量空间下的索引与查询问题。鉴于此,本文对度量空间下的索引与查询技术进行了深入研究,主要包括:  1)度量空间索引:现有的度量空间索引结构可以分为基于支枢点的索引方法、基于划分的索引方法和混合索引方法。基于支枢点的索引方法在距离计算次数上(即CPU代价)优于基于划分的索引方法,但其存储空间消耗过大且I/O代价较大。为此,本文将展开结合基于支枢点的索引和基于划分的索引这两类方法的研究,开发支持度量空间查询(如度量相似查询等)的高效度量空间索引结构。此外,在现实生活中,设备的局限性、持续的数据更新、隐私保护、高通量测序技术等原因可能导致数据的不确定性。所以,本文设计了不确定数据上的度量空间索引结构,以支持不确定数据上的度量空间查询(如度量概率区域查询等)。  2)度量空间查询:尽管已有许多的专家学者致力于度量查询处理技术研究,并取得了大量可喜的研究成果,但距离满足人们不断出现的、复杂而多样的查询需求还有一定的差距,仍有待相关研究的进一步深入。例如,已有的度量全k最近邻查询和度量k最近对查询的处理技术都是基于内存的方法(即假设整个数据集可以保存在内存中),因而适用性有限且扩展性差,故不能用来处理大规模数据。因此,本文研究了基于外存的高效度量全k最近邻查询和度量k最近对查询的处理技术。  3)度量空间查询可用性:在实际应用中,查询返回的结果可能是用户预料之外的。这时,用户可能想要寻求相应的解释以更好地进行查询。现有的度量查询研究仅仅关注查询效率的提高,而并未关注查询的可用性。因此,针对查询结果与用户期望不一致的情况,本文展开了度量查询交互问题(即度量概率区域查询上的why-not问题)研究,以实现查询与用户的良好交互。  4)度量空间应用系统:集成上述研究成果,本文开发了一个分布式的社交图像检索与推荐系统。该系统利用社交网络中的图像、文本、时间和位置等数据,采用度量索引与查询技术,从而支持热点发现、图像检索以及图像推荐等功能。
其他文献
随着社会信息化建设的发展,企业和政府部门的大量数据转移到数据库系统之中,数据库安全成为了人们普遍关注的问题。权限管理是数据库安全的基础,只有将数据库中的权限进行合
随着网络的大量普及,存储技术、多媒体技术、数据库技术快速发展,人们对图像的应用要求也日益增长,图像中包含大量的语义信息,图像语义标注是所有图像语义研究的基础。目前,
随着信息技术的快速发展,信息数据量的增长越来越快。磁盘作为数据存储的容器,其容量越来越大,可是CPU和I/O之间的性能差距不断扩大。磁盘数据传输技术的发展速度远远落后于CPU
随着数码设备的普及和Adobe Photoshop,ACD-See等具有强大功能的图像处理软件的广泛应用,将数字图像进行变换、更改变得愈发容易,而对于通过不正当的手段篡改过的图像也愈发难以
随着互联网的发展和普及,垃圾邮件问题日益严重。垃圾邮件的广泛传播不仅加重了网络传输的负担,而且还给用户带来很多不便和危害。研究反垃圾邮件技术,有效地过滤和防范垃圾邮件
随着统计技术的发展,大规模的双语语料库是机器翻译和跨语言处理中不可缺少的基本资源。平行双语语料库提供了两种相应语言的丰富的匹配信息。通常情况下,获得高质量和大规模
计算场景中数量庞大的各种对象间的距离以判断交互与否是游戏系统中兴趣管理功能的一类主要计算工作。Kd-tree作为一种最近邻查找工具已被应用于游戏空间的分割,在一定程度上
我国大多数注水开发油田采出程度及综合含水指数均已很高。油井大规模采用机械采油方式使得井内流体压力低于饱和压力,产生原油脱气现象,造成油井内油气水三相流动状态。在油田
哼唱搜索(Query by Humming)是一种基于内容的音乐搜索技术,它是涉及信号处理和模式识别等领域的综合研究课题。与传统的基于文本的搜索不同,哼唱搜索为人们提供了一种很自然的
在信息检索系统中,由于用户查询语句过短而导致的词不匹配、信息迷向和信息过载等问题,成为制约检索质量的主要因素之一。实践表明,根据一定的策略为原查询语句附加更多的关键词