论文部分内容阅读
随着计算机、互联网、通信以及定位技术的快速发展,科学计算、社会生活及工业生产不断产生出各类复杂数据。这些数据在形态上具有海量、高维、多源、异构、不确定/不完整等特征,因而需要借助于更广泛的空间模型,即度量空间。度量空间不受数据对象的几何特性限制,而只需要知道数据对象之间的距离度量方式即可。所以,度量空间具有更广阔的适用范围。 查询/搜索是计算机科学的基本问题,存在于目前几乎所有的计算机应用领域。为此,如何高效、智能地查询/检索数据,挖掘有价值的信息,服务于社会,理解和发现事物演化的规律,进而影响科技和社会的发展进程,已成为当今信息技术的重大挑战。 现有的(空间)索引和查询处理大多关注欧氏空间,使用多维向量表示数据对象,并用欧氏距离来度量对象之间的邻近关系。然而,在度量空间下,数据对象可能不存在维度信息且相似性的度量方式也不局限于欧氏距离。因此,欧氏空间下的索引与查询技术不能有效地解决度量空间下的索引与查询问题。鉴于此,本文对度量空间下的索引与查询技术进行了深入研究,主要包括: 1)度量空间索引:现有的度量空间索引结构可以分为基于支枢点的索引方法、基于划分的索引方法和混合索引方法。基于支枢点的索引方法在距离计算次数上(即CPU代价)优于基于划分的索引方法,但其存储空间消耗过大且I/O代价较大。为此,本文将展开结合基于支枢点的索引和基于划分的索引这两类方法的研究,开发支持度量空间查询(如度量相似查询等)的高效度量空间索引结构。此外,在现实生活中,设备的局限性、持续的数据更新、隐私保护、高通量测序技术等原因可能导致数据的不确定性。所以,本文设计了不确定数据上的度量空间索引结构,以支持不确定数据上的度量空间查询(如度量概率区域查询等)。 2)度量空间查询:尽管已有许多的专家学者致力于度量查询处理技术研究,并取得了大量可喜的研究成果,但距离满足人们不断出现的、复杂而多样的查询需求还有一定的差距,仍有待相关研究的进一步深入。例如,已有的度量全k最近邻查询和度量k最近对查询的处理技术都是基于内存的方法(即假设整个数据集可以保存在内存中),因而适用性有限且扩展性差,故不能用来处理大规模数据。因此,本文研究了基于外存的高效度量全k最近邻查询和度量k最近对查询的处理技术。 3)度量空间查询可用性:在实际应用中,查询返回的结果可能是用户预料之外的。这时,用户可能想要寻求相应的解释以更好地进行查询。现有的度量查询研究仅仅关注查询效率的提高,而并未关注查询的可用性。因此,针对查询结果与用户期望不一致的情况,本文展开了度量查询交互问题(即度量概率区域查询上的why-not问题)研究,以实现查询与用户的良好交互。 4)度量空间应用系统:集成上述研究成果,本文开发了一个分布式的社交图像检索与推荐系统。该系统利用社交网络中的图像、文本、时间和位置等数据,采用度量索引与查询技术,从而支持热点发现、图像检索以及图像推荐等功能。