论文部分内容阅读
随着基于位置的服务和地理定位技术的快速发展,产生了越来越多具有位置信息和文本描述信息的空间文本对象。空间文本对象的相关查询,在时空数据库领域中成为了人们研究的热点,一些研究成果也应运而生。然而现有的大多数研究工作主要考虑空间文本对象的空间邻近性和文本相关性,忽略了其具有的时间信息并且仅适用于欧式空间。而在很多实际的问题中,空间文本对象和查询均处于路网空间中并且用户需要考虑更多的信息,如开放时间,价格等来做出更好的选择。现有的研究工作和相关技术不能有效地利用时间信息来满足用户的查询需求。本文研究了路网空间中面向时间区间的空间文本查询(TASK),查询中除了具有传统的空间文本约束,同时也考虑了空间文本对象的时间信息。本文的主要工作有以下三点。第一,本文提出了关键字热值的概念,通常是文本属性的值,例如关键字频率,价格,评分等。并针对TASK查询设计了一种新的相似度函数,该函数同时考虑了空间,文本和时间三个维度的信息,从而更好地评估空间文本对象和查询之间的相似性。第二,设计了一种新的层次索引结构GI-tree,将空间文本对象有效地组织起来。其中,距离矩阵(DM和SC)记录位置信息,关键字信息列表(KAI)记录了文本信息、文本属性值以及时间信息。提出了一种相似度函数来计算GI-tree节点与查询之间的分数。基于此,提出了基于最佳优先搜索策略的基础查询算法BM来处理TASK查询。实验结果表明,提出的算法是有效的,具有一定的应用价值。第三,为了提高查询效率,设计了一种由SBT-trees和GI-tree构成的新型混合索引结构SGI,它通过同时利用空间、文本和时间信息对不满足查询条件的空间文本对象进行剪枝。利用空间文本对象具有的时间信息,将对象有效地组织在相关的SBT-trees中。在此基础上,设计了高效的剪枝算法,缩小了搜索空间,提出了更合理的相似度函数来估计GI-tree节点与查询之间的分数,并通过启发式搜索策略来进一步优化,设计了一个高效的搜索框架来获得top-k的结果。在真实数据集上的实验结果表明了 SGI索引和相关算法的高效性以及可拓展性。