结合时空数据特征的推荐算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:liongliong572
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多推荐应用场景会产生包含空间地理位置坐标的数据,或着带有时间戳、附着时序性的数据,这些数据又与其服务形式息息相关,对于地理位置场景,比如旅游网站,其产品为旅行地点(以及服务),旅行地具有固有的空间属性,即地图经纬度,居民出游常常优先考虑出行距离,并作为首要检索条件在网站搜寻目标,如:去外省还是近郊,国内还是国外?而游客出行历史也会构成带有不同位置属性的轨迹日志,成为独特的数据源。对于时序场景,比如在电商网站上的购物活动,会产生大量的以时间戳为序的浏览和消费日志,当消费者进人网站会话期时,推荐系统开始运作,需要短时间内预测用户接下来想看的商品,而用户兴趣往往体现在浏览活动序列中。在这两个领域的历史数据中,时序和距离不是物品本身属性,而是因为用户与物品的交互活动动态形成的。传统推荐领域对用户和物品的挖掘集中在标签、文本等形式的附加信息上,未充分将这两个特征融合进算法并加以有效利用,但在诸如此类与实体经济相关领域,时间戳和空间位置信息与产品服务形式和质量密切相关,因此,在此些场景下,结合时空数据特征(地理位置特征或时间戳特征)为服务方设计更契合产品的推荐算法至关重要。我们在研究过程中,恰好遇到携程旅游网站和海信智能电视两个独具特色的场景,原始数据分别具有地理位置属性和时间戳属性,针对各自特点,我们分别提出了新的推荐算法。对于旅游推荐,仅仅依靠互联网搜索通常很难满足游客需要的旅游规划,旅游网站或手机应用的后端推荐系统则是解决问题的有效方式。一个好的旅游推荐模型可以更全面地考虑用户的筛选条件,我们的调查表明,当用户选择一个旅游景点时,目的地与用户惯居地的距离常常是一个首先考虑的问题,并且旅行距离通常间接地反映时间和经济成本的影响。在本文旅游推荐工作中,我们首先对真实的携程网站用户旅行数据进行分析,给出合理假设,即每个用户旅游时有一个最偏好的距离区段,然后在贝叶斯模型和概率矩阵分解模型的基础上,提出结合出行距离特征的旅游推荐模型,简记为G-PMF(Probabilistic Matrix Factorization with Geographical Distance Feature)。模型创新点在于:(1)将用户对距离区段的偏好映射为权重,并作为自变量补充到概率矩阵分解的推荐模型中。(2)利用数据离散化技术,将景点与用户常居地之间的距离划分成区段,作为额外信息引入到学习过程。(3)在携程网旅行数据集上进行的实验,结果表明,通过引入出行距离特征,G-PMF的效果与传统模型相比有显著提高。电视机作为客厅的一块屏在电器领域占有重要的市场,而智能电视,使观众可以在单一平台上既可以观看电视直播又可以点播网络内容,目前变得越来流行。研究序列预测是让推荐引擎在用户完成视频观看时提供他接下来将会看的视频列表。我们在科研进程中,获取到海信真实用户日志并对其分析挖掘以解决序列预测问题。类似工作在其他领域序列推荐场景中已逐渐流行,在电商领域的会话推荐(Session based Recommendation)问题上,循环神经网络RNN已经用于捕获序列模式且获得了较的推荐效果。但是,将这种方法原封不动地迁移到智能电视方案中可行性不高,因为智能电视数据集具有不同的特点,例如帐户共享、由时间跨度引起的稀疏性、用户观看行为的不连续性等等。而且从算法本身而言,RNN主要作用是捕获序列统计特征,对用户兴趣的个性化挖掘能力有限。因此,我们结合传统协同过滤开发了一种混合方法来做这种推荐任务,称之为智能电视上的混合序列预测模型(Hybrid Sequence Prediction Model for Smart TV,HSPM)。它包含两个模块,第一个利用并行门控循环神经单元(Parallel Gate Recurrent Unit)结合海报和点击数据对序列进行建模;第二个模块称为时间上下文序列K近邻算法(Time Context Sequence K Nearest Neighbor,TCSKNN),我们考虑到用户在当前时间范围内的选择通常会受到电视推广页面的影响,所以将传统的KNN扩展为对时间敏感的方法,来模拟在线实时推荐情况。我们将两个模块预测结果以加权方式将混合。通过在海信智能电视点播数据集和第三方视频数据集上进行的实验,我们证明了模型与最新的基线模型相比,HR(命中率)和MRR(均值倒数排名)指标上可实现一定的提高。综上所述,我们分别针对具有空间距离特征的旅游目的地推荐场景和具有时时间戳及时序特征的智能电视场景进行了数据挖掘、问题建模、实验分析等工作,分别结合传统协同过滤技术或深度学习模型,提出了针对各自场景特点的推荐算法,并在大规模真实的行业数据集上验证了我们方法的有效性,所做工作对旅游推荐和智能电视领域有较大帮助。
其他文献
随着精准扶贫的不断深入,各级政府因地制宜地实行了各种针对农户“两不愁三保障”和“当年人均可支配收入”的扶持政策,而忽略了农户资产积累对家庭的影响。农户的致贫机理多样,测度农户贫困程度的体系不健全,很难适应山西省今后脱贫攻坚的需要,本文通过资产的视角研究农村家庭贫困脆弱性影响因素以及检验农村家庭是否存在贫困陷阱。基于山西省36个国定贫困县,对农户资产的截面数据进行调查研究,运用质性研究和定量分析的方
在这次会议中,各地总结了2005年救灾救济工作所取得的成绩。以期推动2006年救灾救济工作,部分地方还规划了2006年救灾救济工作的思路,为“十一五”开局之年的工作勾画出美好蓝图
随着我国经济的迅速发展和城镇化水平的提高,农村青壮年劳动力进城务工比例逐年上升,子女则被留在家里,长期以来形成了一个特殊的弱势群体——留守儿童。近几年来,农村留守儿
在纺织工业中,传统的聚酯纤维染色技术的染色介质大多是水,在染整过程中需要使用大量的分散剂等染色助剂,工艺流程长,需要消耗大量的水资源和能源。目前,我国聚酯纤维年产量
1931年在20世纪的中国历史上留下了令人难以忘却的创痛。今年6月到8月,一场百年不遇的特大水灾几乎袭击了整个神州大地,自南到北,珠江、闽江、长江、淮河、黄河泛滥,松花江、嫩江
“互联网+”时代,信息技术的普及发展推动了语文教学的变革,写作教学作为语文教学的重要环节,更加关注信息技术对写作教与学方式的影响作用。诚然,教师借助信息技术与网络资
为进一步提高救灾抢险应变能力,加强灾情信息管理,4月26日,文本临桂县举办了救灾抢险、灾情信息管理专题培训班。
高中英语新课标改革对学生提出了更高的发展要求,同时由于外界干扰因素增加,高中英语学生学习内在动力不足。在这样的背景下,教师需要采用多样教学方法、运用合适的教学评价
俗话说“民以食为天”,可见粮食对于人民群众的重要性,它是国家的根本,是一种生命攸关的战略物资。在西南地区,当国民党政权逐步瓦解,共产党建立了新政权之后,当时手中所缺少