论文部分内容阅读
许多推荐应用场景会产生包含空间地理位置坐标的数据,或着带有时间戳、附着时序性的数据,这些数据又与其服务形式息息相关,对于地理位置场景,比如旅游网站,其产品为旅行地点(以及服务),旅行地具有固有的空间属性,即地图经纬度,居民出游常常优先考虑出行距离,并作为首要检索条件在网站搜寻目标,如:去外省还是近郊,国内还是国外?而游客出行历史也会构成带有不同位置属性的轨迹日志,成为独特的数据源。对于时序场景,比如在电商网站上的购物活动,会产生大量的以时间戳为序的浏览和消费日志,当消费者进人网站会话期时,推荐系统开始运作,需要短时间内预测用户接下来想看的商品,而用户兴趣往往体现在浏览活动序列中。在这两个领域的历史数据中,时序和距离不是物品本身属性,而是因为用户与物品的交互活动动态形成的。传统推荐领域对用户和物品的挖掘集中在标签、文本等形式的附加信息上,未充分将这两个特征融合进算法并加以有效利用,但在诸如此类与实体经济相关领域,时间戳和空间位置信息与产品服务形式和质量密切相关,因此,在此些场景下,结合时空数据特征(地理位置特征或时间戳特征)为服务方设计更契合产品的推荐算法至关重要。我们在研究过程中,恰好遇到携程旅游网站和海信智能电视两个独具特色的场景,原始数据分别具有地理位置属性和时间戳属性,针对各自特点,我们分别提出了新的推荐算法。对于旅游推荐,仅仅依靠互联网搜索通常很难满足游客需要的旅游规划,旅游网站或手机应用的后端推荐系统则是解决问题的有效方式。一个好的旅游推荐模型可以更全面地考虑用户的筛选条件,我们的调查表明,当用户选择一个旅游景点时,目的地与用户惯居地的距离常常是一个首先考虑的问题,并且旅行距离通常间接地反映时间和经济成本的影响。在本文旅游推荐工作中,我们首先对真实的携程网站用户旅行数据进行分析,给出合理假设,即每个用户旅游时有一个最偏好的距离区段,然后在贝叶斯模型和概率矩阵分解模型的基础上,提出结合出行距离特征的旅游推荐模型,简记为G-PMF(Probabilistic Matrix Factorization with Geographical Distance Feature)。模型创新点在于:(1)将用户对距离区段的偏好映射为权重,并作为自变量补充到概率矩阵分解的推荐模型中。(2)利用数据离散化技术,将景点与用户常居地之间的距离划分成区段,作为额外信息引入到学习过程。(3)在携程网旅行数据集上进行的实验,结果表明,通过引入出行距离特征,G-PMF的效果与传统模型相比有显著提高。电视机作为客厅的一块屏在电器领域占有重要的市场,而智能电视,使观众可以在单一平台上既可以观看电视直播又可以点播网络内容,目前变得越来流行。研究序列预测是让推荐引擎在用户完成视频观看时提供他接下来将会看的视频列表。我们在科研进程中,获取到海信真实用户日志并对其分析挖掘以解决序列预测问题。类似工作在其他领域序列推荐场景中已逐渐流行,在电商领域的会话推荐(Session based Recommendation)问题上,循环神经网络RNN已经用于捕获序列模式且获得了较的推荐效果。但是,将这种方法原封不动地迁移到智能电视方案中可行性不高,因为智能电视数据集具有不同的特点,例如帐户共享、由时间跨度引起的稀疏性、用户观看行为的不连续性等等。而且从算法本身而言,RNN主要作用是捕获序列统计特征,对用户兴趣的个性化挖掘能力有限。因此,我们结合传统协同过滤开发了一种混合方法来做这种推荐任务,称之为智能电视上的混合序列预测模型(Hybrid Sequence Prediction Model for Smart TV,HSPM)。它包含两个模块,第一个利用并行门控循环神经单元(Parallel Gate Recurrent Unit)结合海报和点击数据对序列进行建模;第二个模块称为时间上下文序列K近邻算法(Time Context Sequence K Nearest Neighbor,TCSKNN),我们考虑到用户在当前时间范围内的选择通常会受到电视推广页面的影响,所以将传统的KNN扩展为对时间敏感的方法,来模拟在线实时推荐情况。我们将两个模块预测结果以加权方式将混合。通过在海信智能电视点播数据集和第三方视频数据集上进行的实验,我们证明了模型与最新的基线模型相比,HR(命中率)和MRR(均值倒数排名)指标上可实现一定的提高。综上所述,我们分别针对具有空间距离特征的旅游目的地推荐场景和具有时时间戳及时序特征的智能电视场景进行了数据挖掘、问题建模、实验分析等工作,分别结合传统协同过滤技术或深度学习模型,提出了针对各自场景特点的推荐算法,并在大规模真实的行业数据集上验证了我们方法的有效性,所做工作对旅游推荐和智能电视领域有较大帮助。