论文部分内容阅读
Web技术的发展,使得网页中包含了大量的地理信息,挖掘网页中包含的地理信息,将其应用到传统的信息检索领域,有助于搜索引擎更好的理解用户的查询意图,产生个性化的搜索结果。移动互联网技术和基于位置服务LBS(Location-based services)的迅猛发展,催生了新的社交网络。用户在这些新的社交网络中,可以发表自己的看法,实时记录自己参加的活动和活动场所。这就使得通过大量真实的用户数据挖掘用户的活动范围、学习用户行为习惯成为可能,从而可以提供更好地广告服务和个性化推荐。本文主要从以下三个方面对地理信息的应用进行研究:首先,基于文档地名感知的地理信息检索模型,将地理信息应用到传统的信息检索模型中。区别于其它的地理信息检索模型,此模型不使用最小边界矩形确定文档范围,将文档索引在单一的空间索引中,而是将文档按其中出现的地名索引在多个空间范围内,计算单个地名范围与查询范围的相似度,将所有相似度的和作为地理相关性。模型融合时,考虑了地理信息的层次特征和文档的特征。实验表明本文的模型优于传统的检索模型和确定文档地理范围的地理信息检索模型。其次,Twitter中基于用户tweet内容和社会网络的用户位置预测。如果获取到用户经常活动的范围,互联网就可以提供更加个性化的推荐服务。用户在发表tweet时都会有意或无意的泄漏一些地理词(地名或者是方言词汇),并且他们在社交网络中更关注生活在周围的人,本文提出一种融合文本模型与社会网络模型的混合概率模型来预测用户的位置。在文本模型中,提出两种识别地理词的方法,反位置频率和偏远位置过滤,同时也考虑了命名实体识别这种传统的地理词识别方法;在社会网络模型中本文考虑了用户粉丝(或者是关注)的网络关系。实验结果证明本文的方法预测效果要好于之前的方法。最后,LBS中基于用户兴趣和时间的位置推荐。LBS中用户海量的签到数据,为学习用户的行为习惯、兴趣爱好和位置的特征提供了便捷条件,从而可以更好的为用户其推荐感兴趣的和合适的场所。本文提出一种推荐模型,它考虑了用户的访问时间、位置的时间特征和流行度、用户的兴趣、用户朋友的影响和用户所在位置等信息。在签到数据集进行的实验表明,融合时间和用户兴趣的推荐确实能提高推荐的效果。