论文部分内容阅读
随着移动网络的普遍应用和GPS技术的快速发展,大量包含位置信息和文本信息的空间Web对象(简称空间对象,如兴趣点、用户签到记录等)逐渐形成了规模庞大的空间-文本数据,以空间-文本数据为背景的两种高度相关的空间关键字查询和兴趣点推荐技术正成为当前基于位置的服务(Location-based Service,LBS)领域备受关注的研究热点。本文针对当前空间-文本数据的查询与推荐领域中亟待解决的空间关键字语义近似查询、查询结果典型化分析和多样性兴趣点推荐等问题进行研究,取得了如下创新研究成果。(1)现有的空间关键字查询处理模式大都仅支持位置相近和文本相似匹配,但不能将语义相关但形式上不匹配的空间对象提供给用户;并且,当前的空间-文本索引结构也不能对空间对象中的数值属性进行处理。为了解决上述问题,提出了一种支持语义近似查询的空间关键字查询方法。首先,设计了一种基于条件生成对抗网络(Conditional Generative Adversarial Network,CGAN)的查询关键字语义扩展模型,用来生成语义相关关键字;然后,构建了一种能够同时支持位置和文本匹配并利用Skyline方法对数值属性进行处理的多维混合索引结构(Attribute Inverted-file R-Tree,AIR-Tree),给出了 AIR-Tree 的插入、删除和查询操作的实现算法;最后,利用AIR-Tree对扩展查询条件进行查询匹配,并根据综合评分函数对匹配结果进行top-k排序。实验结果表明,基于CGAN的查询扩展模型产生的语义相关关键字更为合理,并且对罕见查询关键字也能够进行有效的语义扩展;构建的AIR-Tree索引能够有效解决数值属性查询问题,并且具有较高的查询准确性、较低的索引构建时间和较快的执行效率。(2)根据位置相近度和文本相似度评分方式返回的top-k个结果之间通常比较相似,而用户希望系统能从匹配结果中选出少数典型对象从而增强其对查询结果集合主要特征的理解。为了解决上述查询结果典型化分析与典型对象选取问题,提出了典型程度评估和top-k近似选取方法。首先,计算所有空间对象之间在位置、文本语义和数值属性等维度上的综合距离;对于空间对象的描述文本和评论文本语义相似度评估,分别提出了基于关键字耦合关系和基于词嵌入与卷积神经网络相结合的语义相似度评估方法。然后,根据空间对象之间的综合距离,提出了基于高斯核函数概率密度估计的空间对象典型程度评估方法。为了提高大规模数据集下的查询结果典型化分析和top-k典型对象选取的执行效率,分别给出了基于淘汰策略和基于局部邻域的top-k近似选取算法,并且证明了基于局部邻域近似选取算法的误差率理论上界。实验结果表明,提出的空间对象文本语义相似度评估方法具有较高的准确性和合理性,基于局部邻域的top-k近似选取算法具有较小的误差率和较高的执行效率。(3)当用户获得查询结果后,还希望系统能够自动为其推荐查询结果区域内他可能感兴趣的其他类型空间对象。为了解决该问题,提出了一种综合考虑空间对象之间位置关系和社会关系的多样性与个性化兴趣点推荐方法。首先,构建了空间对象之间的位置-社会关系模型,评估空间对象之间的位置-社会关系相关度;然后,提出了基于谱聚类的空间对象聚类划分方法;最后,利用概率因子模型从各聚类中选取用户偏好的兴趣点构成多样性和个性化的兴趣点推荐列表。实验结果表明,基于位置-社会关系相关度的聚类方法具有更为合理的聚类效果,推荐的兴趣点列表具有较高的多样性和一定的准确性,拓展了用户对查询结果区域内其他兴趣点的了解并增强了用户对这些兴趣点之间位置-社会关系的认知。上述研究成果可应用于空间-文本数据的查询与推荐、典型化分析、基于位置的服务系统、隐形社区发现、时空数据挖掘、城市计算、市场营销等应用领域,对于改进各领域现有系统的服务质量具有重要作用。该论文有图50幅,表41个,参考文献138篇。