论文部分内容阅读
空间信息检索技术的出现给我们的生活带来很大得方便,足不出户,便知天下位置,该技术主要是建立在具有空间位置和语义属性的空间数据集基础上,在用户给定位置的前提下,如何返回给令用户满意的l(自然数)个词条信息(元组)。由于用户在检索时大多数情况下,意图是不明确的,这给检索技术带来很大的挑战。故本文在空间信息检索技术方面的主要研究如下:(1)提出一种新的离线排序策略—ValueRank。此方法主要用来计算数据集中各个节点的初始权值,这避免了目前大多数技术只是根据用户评分排序来选取结果的单一性。ValueRank是ObjectRank的扩展,其引入了动态“数值”的概念,即在计算某些属性节点的VR值时动态考虑的不仅是数量关系和给定的静态数值流动率(数值流动率为关系数据模式图中节点之间的相互贡献程度,详见第一章),还考虑其数值,形成动态数值流动率,即对于Northwind数据集来说,对于一个消费者的评价不仅仅在于其订单的数量,而主要是根据所有订单的总数值来计算其权值。用ValueRank计算出的初始权值不仅避免了仅仅将用户评分作为初始权值的单一性,还有一个可靠的数据理论支撑,为之后的检索做准备。(2)提出基于语义多样性和等比例特性的检索方法。由于现存的检索技术都是在按权值大小排序的词条集合中,取前k个作为结果返回,这样可能会造成结果在某一类语义上聚集,此时,在并不了解用户意图的时候,返回的结果很难满足用户的需求,故提出基于语义多样性和等比例特性的计算方法。此方法是指用户在给定位置(在空间数据集中)或关键词(在纯文本数据集中)的前提下,能够在语义方面尽可能多样化地返回l(自然数)条结果。基于语义多样性是考虑当某类(语义相似即为一类,详见第四章)词条在结果集中出现多次,那么当下次准备从备选集中选择此类词条时,需要动态减小削弱其权值的系数(使其权值更小),以此来达到基于语义多样性的需求;基于语义等比例特性是考虑某类词条出现频率较高,但其权值较低,那么这也能说明此类词条和检索的关系词或是位置有某些联系,故当下次从备选集中选择此类词条时,本文将动态增大权值的系数,以此来达到基于语义等比例特性的需求。(3)提出基于空间分布多样性和等比例特性的检索方法。此方法主要针对于空间数据集,空间检索大多都是按距离远近进行排序,优先返回l(自然数)个离检索点最近的点组成结果集。由此可见无论是按此方式返回还是按权值大小返回也都可能造成结果在某一空间分布上聚集,故提出基于空间分布多样性和等比例特性方法,在多样性上根据欧式距离公式的特性来选择备选节点,而在等比例特性方面将空间分布以检索点为中心分为四个方向,沿用基于语义等比例特性的方法生成结果。最后将基于语义多样性和空间分布多样性结合生成Dsize-l OS,将基于语义等比例特性和空间分布等比例特性结合生成Psize-l OS。实验结果证明本文提出的检索方法有效。