论文部分内容阅读
随着移动网络和GPS的普遍应用,获得地理空间信息变得更加容易,Web中出现了越来越多的兴趣点(Point of Interests,POIs),这些POIs包含了位置信息(一般由经纬度表示)和文本信息。基于位置的服务系统(如携程、美团、滴滴出行等)根据用户的位置和查询关键字,为用户提供位置相近和文本匹配的查询结果。因此,空间关键字查询的研究已成为当前数据库查询领域的研究热点。现有的空间关键字查询方法通常根据查询关键字在空间对象文本信息中的出现频率进行文本相关度评估,未考虑用户对不同查询关键字的偏好程度,并且仅支持文本匹配而没有考虑查询关键字与空间对象文本信息的语义相关性。为解决上述问题,本文提出一种基于用户反馈的空间关键字个性化语义查询方法,该方法分为离线处理和在线查询两个阶段。在离线处理阶段,采用Gibbs算法估计空间对象文本信息的主题概率分布,进而利用LDA模型对空间数据集的文本信息进行语义扩展。在线查询阶段,对于用户的初始查询条件,首先利用IR-tree混合索引结构从扩展后的空间数据库中获得候选查询结果;然后,用户根据个人偏好在候选集中明确标注出相关的查询结果(即相关反馈),根据用户的反馈信息,采用Rocchio算法对用户初始查询条件进行更新,使得新的查询条件更贴近用户实际需求和偏好;利用更新后的查询条件再进行检索,从而得到新的候选集,重复执行反馈过程,直到查询结果令用户满意或达到停止阈值为止。实验结果表明,本文提出的方法可以有效捕获用户偏好并体现查询的语义相关性,在一定程度上提高了空间关键字查询结果的个性化程度和准确率。该论文有图14幅,表9个,参考文献58篇。