论文部分内容阅读
摘要:电子商务的飞速发展,在为人们提供了更加方便快捷的购物途径同时,如何给用户提供更加人性化的推荐服务,是电商赢得市场需要解决的关键问题。以淘宝电子商务平台为依托,提出基于用户模型和商品属性扩散的混合个性化推荐系统,研究用户兴趣的时间演化和空间扩散方法,综合运用多种推荐方法,给为用户提供更加精准的推荐服务。实验证明,该方法具有较明显的效果,能够较好地运用于同类电商平台。
关键词:UMARS;用户模型;空间扩展;属性扩散;时间更新
中图分类号:TP391文献标志码:A
文章编号:1672-1098(2015)01-0055-05
随着计算机网络通信技术的发展,电子商务作为一种商务模式得到了迅速推广,业已成为人们日常购物消费的重要渠道。作为电子商务平台的重要营销手段,个性化推荐系统得到了广泛的研究和应用,并在提高电子商务网站的交叉销售能力、提高客户对电子商务网站的忠诚度等方面发挥了积极的作用[1]。然而,已有的推荐系统存在明显不足,未能较好地承担改善用户体验的功能。如基于关联规则的个性化推荐中,规则无法自动生成,且更新和维护工作量巨大[2];基于内容过滤和协同过滤的个性化推荐受推荐对象特征提取能力的限制较为严重、冷启动问题
[3-5]。
目前,学术界对个性化推荐的研究已取得了一定的成果。文献[6]通过表明个人某一方向兴趣的各类示例文本,经过文本映射和文本结构分析,获得文本的逻辑表示,将段落作为识别用户兴趣的基本要素,改进了用户兴趣模型的结构分析。文献[7]借助RRS技术实现用户兴趣资源的整合,并使用本体构建用户兴趣模型。文献[8]在传统VSM向量中引入了兴趣度因子,进一步提出了主题兴趣度的概念并对主题兴趣度的提取方法进行了详细描述。文献[9]将混合模糊理论运用于个性化推荐系统中,开发了FTCPRS推荐系统,并在电信服务推荐中得到了应用。文献[10]将表示信任度的FRPRA模型应用到协同推荐系统中,并与传统的KNN算法进行了比较。上述这些方法虽然在一定程度上缓解了推荐系统的不足,但均未考虑用户兴趣属性之间的相关性。
文献[11]将遗传算法应用到协同个性化推荐中,试图通过启发式特征术语的选择,有效地与其它用户分享信息选择经验,优化用户模型,提高信息选择的质量。文献[12]提出基于蚁群算法实现用户聚类,以提高协同过滤推荐系统的最近邻查询速度。文献[13]提出一种基于兴趣相关性的本体用户模型更新算法,用户更新IS-A关系下的用户兴趣值,取得了一定的效果。文献[14]将浏览行为和用户在页面上的停留时间结合,提出了基于时间元兴趣度度量方法。文献[15]通过时间遗忘函数、黏度函数、用户特征向量,对协同过滤算法寻找用户的最近邻居集合过程进行了改进,体现了时间效应、用户偏好程度和用户特征。以上对兴趣模型和协同算法的改进均未考虑用户兴趣属性之间的联动性,即用户的一种兴趣发生变化时可能会引起对另外一种物品的兴趣。
本文以淘宝电子商务平台的分类为知识,建立分类知识库,提出一种考虑用户兴趣演化扩散和商品属性特征的混合个性化推荐系统UMARS。根据用户购买记录、浏览记录及行为建立兴趣模型,利用用户兴趣的空间扩散来更新用户模型,考虑用户兴趣随时间的演化特性,同时,采用商品属性特征匹配的方法筛选推荐商品。实验证明这种方法能够有效的表示用户兴趣之间的相互关系,提高个性化推荐的准确率。
1用户兴趣模型的建立
11全局知识库的建立
在UMARS系统中,每个商品或服务都对应到特定的分类中。本文以淘宝电子商务平台中的商品分类为依据对商品进行分类,建立全局本体树。每个商品都被划分在对应的分类中,每个分类都是某个分类的子类,如{数码:手机:HTC:HTC one 802w},从右到左依次HTC one 802w是HTC的子类,HTC是手机的子类,手机是数码的子类,这种父子类别的关系构成本体树的上下层关系。全局知识本体树中,分类的父子类别形成本体树的父子节点。每个节点的描述形式为(N,v,W),其中N是节点的名称,W为节点的特征属性向量,v为节点的原始兴趣值,其取值为父节点的原始兴趣值进行归一化得到,如公式(1) 所示。
Io(sni)=I′o(sni)/count(sni)(1)
式中:Io(sni)为子节点sni的原始兴趣值,I′o(sni)为节点sni的父节点的原始兴趣值,count(sni)表示本体树中层次i的所有节点总数。
每个商品都有特征属性,用于表明自身区别其他商品的特色。用户在搜索商品时会给出所需商品的特点要求。因此,本体树上的每个节点除具有具体的商品类别外,还拥有表征的属性W={w1,w2,…,wn},用于区别同一父类的其他兄弟子类,子类拥有比父类更多的特征属性。例如父类“手机数码”拥有品牌、价格等属性,而子类“手机”除了拥有父类的全部属性以外,还拥有手机特色、手机配置等其他属性,如图1所示。提取本体树中节点的特征属性,建立特征向量,未列入特征向量的特征表示该分类不具有该属性,对应取值为0。
图1全局本体树及其特征属性
12兴趣度计算
在UMARS系统中,用户模型的兴趣由显式兴趣和隐式兴趣组成,显式兴趣来自于用户以前的购买记录,隐式兴趣主要来自于用户的浏览、收藏等行为。当用户首次购买、浏览某商品后,获得初始兴趣点和兴趣值,用户的兴趣会随着时间的推移产生演化。
1) 用户兴趣的表示。
用户兴趣模型是一个本体树,它是全局知识本体的一个子集。兴趣模型中的每个节点表示用户的一个兴趣点,描述为,其中N表示节点名称,即兴趣点名称,I(N)表示用户在该兴趣点的兴趣值,W表示该兴趣点的特征向量。I(N)通过公式(2)计算获得。
I(N)=αI′(N)+βIs(N)(2)
式中: I′(N)为用户节点N的兴趣值,其初始值为Io(N) ,即用户在节点N的原始兴趣值,Is(N)表示用户对节点N的隐式兴趣值。α,β∈R 且α+β=1。
用户兴趣主要来自于购买记录和用户的行为。当用户购买或浏览商品时,系统记录该商品类别和商品特征,并在全局本体树中查找对应的节点,作为用户的兴趣节点,取出该兴趣节点的特征属性W,并作为用户兴趣节点的兴趣特征向量的依据。
2) 行为分析。
用户兴趣的获得还来自于用户的行为,称为隐式兴趣。在分析用户行为的同时,根据用户的不同行为来表达用户兴趣。定义用户行为的集合及其对应的权值,如表1所示。
表1用户行为分类及其权值
动作动作表示权值
平均浏览时间A1p1
重复访问同一页面A2p2
点击链接A3p3
查看购买评价A4p4
收藏页面A5p5
点击旺旺链接A6p6
访问关键词A7p7
上述7种用户行为代表了用户对产品可能产生兴趣的不同,其权值表示兴趣的差异。在进行用户行为分析时,首先取得页面产品的描述,然后利用产品标识查找在全局本体树中的位置,从而获得兴趣点N,接着通过公式(3)计算用户在该兴趣节点上的用户行为度量f(N)。
f(N)=∑ni=1pi*Ai(3)
式中:∑ni=1pi=1,n为用户行为的分类数目。
用户的行为度量可以衡量不同行为对用户隐式兴趣获得的贡献,用户的隐式兴趣通过公式(4) 计算得到。
Is(N)=l(N)+1lmax(N)+1 f(N)(4)
式中: l(N)表示用户行为目标对象在用户兴趣模型本体树中的节点层次; lmax(N)表示用户兴趣模型本体树节点的最深层次; f(N)表示用户行为度量。
2用户兴趣的更新
21兴趣的空间扩散
用户对商品的兴趣会在商品的购买过程中迁移并最终确定,这种迁移称之为用户兴趣的空间扩散。例如,用户A在购买了手机之后,其感兴趣的商品就会由手机类商品变迁到与手机相关的其他商品,如移动电源、手机硅胶套等。也就是说,用户兴趣的空间扩散是与当前兴趣相关的。表现在用户兴趣本体模型上,这种扩散表现为与当前兴趣节点Ni相关的兴趣节点集合。
由于用户的兴趣点之间是相关的,这种相关性在用户兴趣模型中表现为本体树节点之间的结构和语义关系(如节点距离、节点间的父子关系、节点之间的特征属性相似关系等)的相关性,如图2所示。已知用户i对商品Mj具有兴趣,由于用户兴趣之间存在相关性,并且当前用户的兴趣因为兴趣相关性扩散,从而影响用户对其他商品的兴趣,这种兴趣扩散可以缓解用户兴趣模型的数据疏松问题,用户兴趣扩散采用公式(5)~式(6)计算。
fi(N,Mj)=I(N)/(1+exp(-d(N,Mj)*t))(5)
Ir(N)=∑nj=1fi(N,Mj)(6)
式中: fi(N,Mj)表示用户i的已有兴趣Mj对兴趣N的影响;Ir(N)用户在兴趣节点N的关联兴趣值。
22商品属性扩散
用户在电子商务平台上浏览商品时,往往并没有欲购买商品的明确目标,只是提出对商品功能、特点的要求。如用户B希望自己能购买一个屏幕较大,具有看电影、听音乐、上网收发邮件、浏览新闻等功能的手持设备。此时,本系统为精确定位用户关注的商品,收集用户所需要的商品的主要特征,利用用户搜索的商品特征属性进行扩散匹配,为用户推荐最符合需求的商品。
图2兴趣的空间扩散
利用用户搜索时提交的商品特征属性,匹配现有商品的特征,通过计算相似度定位感兴趣的商品,确定商品的兴趣值。设属性集合B={b1,b2,…,bn}为用户搜索的属性集合,Ai={ai1,ai2,…,aim}为兴趣节点Ni具有的特征属性集合,可能感兴趣的商品即兴趣度通过公式(7) 计算。
Ia(N)=Sup(B)∩ Sup(Ai)Sup(B)∪Sup(Ai)*Ii(N)(7)
本系统中用户i对兴趣节点N的兴趣值可用公式(8)计算得到。
Ii(N)=α1Is(N)+α2Ir(N)+α3Ia(N)(8)
式中:α1,α2,α3∈R,且α1+α2+α3=1。
23兴趣的时间更新
人们对某件事物的兴趣度大小随着时间的推移而发生先快后慢的增长,因此人们采用时间函数来描述这种变化规律。 林鸿飞等人采用了基于兴
趣聚类的方法来描述用户兴趣的更新和扩散,未能考虑用户兴趣扩散和时间的关系。时间窗是解决上述问题的一个较好的方法,用户的长期兴趣是相对较稳定的兴趣,随时间的变化较慢,如何划分长短期兴趣是难以克服的问题。更多的研究者选择采用Logistic模型描述用户兴趣随时间的变化规律,因为该模型能够描述用户兴趣随时间推移先快后慢的增长规律,最终趋于稳定。本系统也采用Logistic模型来描述时间对用户兴趣度的影响。
用户对商品N的兴趣度随时间推移的变化规律可采用公式(9)计算。
Ii(N)=Ii(N)/(1+exp(-(α+βt)))(9)
式中:α,β∈R且α+β=1,取α=β=0.5。
3混合的个性化推荐
UMARS系统包括用户数据采集、用户模型创建、用户模型进化和推荐模块四部分组成。用户数据采集模块负责收集用户的年龄、职业等基本信息、用户在网站中的购买记录以及行为数据,并对收集到的用户数据进行必要的预处理;用户模型创建模块负责根据采集的用户数据,为首次登录系统的用户创建用户兴趣模型;用户模型进化模块主要对已有用户的兴趣进行时间更新、空间扩展和基于商品属性的兴趣扩展;推荐模块主要综合运用用户模型的相似度计算以及商品属性匹配度计算,为用户推荐精准的感兴趣商品。系统架构如图3所示。 图3系统结构图
在UMARS系统中,基于相似用户推荐是通过用户模型相似度计算获得与当前用户具有相同或相似兴趣的若干个用户,采用Top N算法进行过滤,然后将相似用户感兴趣的商品推荐给当前用户。用户模型的相似度计算采用了余弦相似度计算方法。
Sim(i,j)=∑nk=1Iik(N)Ijk(N)∑nk=1I2ik (N)∑nk=1I2jk (N)(10)
式中:Iik(N)、Ijk(N)表示用户i和j对兴趣项目k的兴趣度值。
基于商品属性内容推荐,是根据用户查询的内容,通过和商品库中商品的属性进行相似性计算,接着采用Top N方法进行过滤,最后将得到的属性相似的商品推荐给当前用户。属性相似性计算方法如公式(11)所示。
SimA(B,Ai)=Sup(B)∩ Sup(Ai)Sup(B)∪Sup(Ai)(11)
式中:B为当前用户搜索的商品属性向量,Ai为商品库中第i个商品的属性向量。
4实验及分析
41实验数据及评价
通过淘宝网平台开放的API获取商品分类和属性条目以及用户数据,选取了2142名用户交易记录,每名用户实际发生交易均超过10次,共36726条记录,时间跨度超过5个月。采用熵权法计算[16]得到用户七种浏览行为的权值,如表2所示。
表2熵权法计算行为权值
动作A1A2A3A4A5A6A7
权值0.110.130.110.130.190.210.13
UMARS系统根据用户的购买记录、浏览行为等计算用户兴趣度,并利用用户模型的相似度计算和属性相似度计算,通过Top N方法为用户提供可供其选择的商品集,如果用户选择并浏览该商品集中的商品,则表示系统推荐是准确的。于是本文采用用户实际点击商品数占推荐商品个数的比例,即利用推荐命中率PR[17]来检验UMARS系统推荐的准确性,如公式(12)所示。
PR=∑ni=1ClickNumi∑ni=1RecItemsi(12)
式中:i为第i次推荐,ClickNumi代表客户在第i次推荐中点击所推荐商品的数量,RecItemsi表示第i次推荐的商品集中商品的数量。n为对当前用户推荐的次数。
42实验分析
首先,根据用户的购买记录和浏览行为得到用户的兴趣本体树,采用基于相似用户的协同推荐和基于商品属性内容匹配的混合推荐方法得到Top N的推荐商品集,然后统计用户的推荐命中率,得到如图4所示的推荐命中率曲线。其中MT为文献用户显意识下的多重态度个性化推荐算法,US为基于用户模型和属性扩散的混合个性化推荐。
推荐商品数/个
图4算法的命中比比较
本系统利用商品的类属和商品的属性进行推荐,同时,将用户兴趣随时间和空间的演化运用到推荐当中,命中率呈现较为快速的增长。但随着商品的增多,命中率呈现下降趋势,当商品数量超过500后增长趋势下降较为明显。这是因为随着商品数量的增多,商品的属性数量增速明显,符合属性的商品数量随之增多,从而导致命中率增速下降。
5结束语
本文以淘宝电子商务平台为依托,提出基于用户模型和商品属性扩散的混合个性化推荐系统,通过将用户兴趣进行时间演化和空间扩散的方法,简化了推荐系统的实现。同时,通过商品属性匹配的技术更加精准的为用户提供推荐服务。最后实验验证了该方法在提高了推荐系统效率和推荐命中率等方面具有较为明显的效果。
参考文献:
[1]余力,刘鲁. 电子商务个性化推荐研究[J].计算机集成制造系统, 2004,10(10):1 306-1 313.
[2]刘华. 基于关联规则的个性化推荐系统研究与应用[D].上海: 华东师范大学, 2011.
[3]曾春,邢春晓,周立柱. 基于内容过滤的个性化搜索算法[J].软件学报,2003, 14(5):999-1 004.
[4]庄景明,王明文,叶茂盛. 基于内容过滤的农业信息推荐系统[J].计算机工程,2012, 38(11):38-41.
关键词:UMARS;用户模型;空间扩展;属性扩散;时间更新
中图分类号:TP391文献标志码:A
文章编号:1672-1098(2015)01-0055-05
随着计算机网络通信技术的发展,电子商务作为一种商务模式得到了迅速推广,业已成为人们日常购物消费的重要渠道。作为电子商务平台的重要营销手段,个性化推荐系统得到了广泛的研究和应用,并在提高电子商务网站的交叉销售能力、提高客户对电子商务网站的忠诚度等方面发挥了积极的作用[1]。然而,已有的推荐系统存在明显不足,未能较好地承担改善用户体验的功能。如基于关联规则的个性化推荐中,规则无法自动生成,且更新和维护工作量巨大[2];基于内容过滤和协同过滤的个性化推荐受推荐对象特征提取能力的限制较为严重、冷启动问题
[3-5]。
目前,学术界对个性化推荐的研究已取得了一定的成果。文献[6]通过表明个人某一方向兴趣的各类示例文本,经过文本映射和文本结构分析,获得文本的逻辑表示,将段落作为识别用户兴趣的基本要素,改进了用户兴趣模型的结构分析。文献[7]借助RRS技术实现用户兴趣资源的整合,并使用本体构建用户兴趣模型。文献[8]在传统VSM向量中引入了兴趣度因子,进一步提出了主题兴趣度的概念并对主题兴趣度的提取方法进行了详细描述。文献[9]将混合模糊理论运用于个性化推荐系统中,开发了FTCPRS推荐系统,并在电信服务推荐中得到了应用。文献[10]将表示信任度的FRPRA模型应用到协同推荐系统中,并与传统的KNN算法进行了比较。上述这些方法虽然在一定程度上缓解了推荐系统的不足,但均未考虑用户兴趣属性之间的相关性。
文献[11]将遗传算法应用到协同个性化推荐中,试图通过启发式特征术语的选择,有效地与其它用户分享信息选择经验,优化用户模型,提高信息选择的质量。文献[12]提出基于蚁群算法实现用户聚类,以提高协同过滤推荐系统的最近邻查询速度。文献[13]提出一种基于兴趣相关性的本体用户模型更新算法,用户更新IS-A关系下的用户兴趣值,取得了一定的效果。文献[14]将浏览行为和用户在页面上的停留时间结合,提出了基于时间元兴趣度度量方法。文献[15]通过时间遗忘函数、黏度函数、用户特征向量,对协同过滤算法寻找用户的最近邻居集合过程进行了改进,体现了时间效应、用户偏好程度和用户特征。以上对兴趣模型和协同算法的改进均未考虑用户兴趣属性之间的联动性,即用户的一种兴趣发生变化时可能会引起对另外一种物品的兴趣。
本文以淘宝电子商务平台的分类为知识,建立分类知识库,提出一种考虑用户兴趣演化扩散和商品属性特征的混合个性化推荐系统UMARS。根据用户购买记录、浏览记录及行为建立兴趣模型,利用用户兴趣的空间扩散来更新用户模型,考虑用户兴趣随时间的演化特性,同时,采用商品属性特征匹配的方法筛选推荐商品。实验证明这种方法能够有效的表示用户兴趣之间的相互关系,提高个性化推荐的准确率。
1用户兴趣模型的建立
11全局知识库的建立
在UMARS系统中,每个商品或服务都对应到特定的分类中。本文以淘宝电子商务平台中的商品分类为依据对商品进行分类,建立全局本体树。每个商品都被划分在对应的分类中,每个分类都是某个分类的子类,如{数码:手机:HTC:HTC one 802w},从右到左依次HTC one 802w是HTC的子类,HTC是手机的子类,手机是数码的子类,这种父子类别的关系构成本体树的上下层关系。全局知识本体树中,分类的父子类别形成本体树的父子节点。每个节点的描述形式为(N,v,W),其中N是节点的名称,W为节点的特征属性向量,v为节点的原始兴趣值,其取值为父节点的原始兴趣值进行归一化得到,如公式(1) 所示。
Io(sni)=I′o(sni)/count(sni)(1)
式中:Io(sni)为子节点sni的原始兴趣值,I′o(sni)为节点sni的父节点的原始兴趣值,count(sni)表示本体树中层次i的所有节点总数。
每个商品都有特征属性,用于表明自身区别其他商品的特色。用户在搜索商品时会给出所需商品的特点要求。因此,本体树上的每个节点除具有具体的商品类别外,还拥有表征的属性W={w1,w2,…,wn},用于区别同一父类的其他兄弟子类,子类拥有比父类更多的特征属性。例如父类“手机数码”拥有品牌、价格等属性,而子类“手机”除了拥有父类的全部属性以外,还拥有手机特色、手机配置等其他属性,如图1所示。提取本体树中节点的特征属性,建立特征向量,未列入特征向量的特征表示该分类不具有该属性,对应取值为0。
图1全局本体树及其特征属性
12兴趣度计算
在UMARS系统中,用户模型的兴趣由显式兴趣和隐式兴趣组成,显式兴趣来自于用户以前的购买记录,隐式兴趣主要来自于用户的浏览、收藏等行为。当用户首次购买、浏览某商品后,获得初始兴趣点和兴趣值,用户的兴趣会随着时间的推移产生演化。
1) 用户兴趣的表示。
用户兴趣模型是一个本体树,它是全局知识本体的一个子集。兴趣模型中的每个节点表示用户的一个兴趣点,描述为
式中: I′(N)为用户节点N的兴趣值,其初始值为Io(N) ,即用户在节点N的原始兴趣值,Is(N)表示用户对节点N的隐式兴趣值。α,β∈R 且α+β=1。
用户兴趣主要来自于购买记录和用户的行为。当用户购买或浏览商品时,系统记录该商品类别和商品特征,并在全局本体树中查找对应的节点,作为用户的兴趣节点,取出该兴趣节点的特征属性W,并作为用户兴趣节点的兴趣特征向量的依据。
2) 行为分析。
用户兴趣的获得还来自于用户的行为,称为隐式兴趣。在分析用户行为的同时,根据用户的不同行为来表达用户兴趣。定义用户行为的集合及其对应的权值,如表1所示。
表1用户行为分类及其权值
动作动作表示权值
平均浏览时间A1p1
重复访问同一页面A2p2
点击链接A3p3
查看购买评价A4p4
收藏页面A5p5
点击旺旺链接A6p6
访问关键词A7p7
上述7种用户行为代表了用户对产品可能产生兴趣的不同,其权值表示兴趣的差异。在进行用户行为分析时,首先取得页面产品的描述,然后利用产品标识查找在全局本体树中的位置,从而获得兴趣点N,接着通过公式(3)计算用户在该兴趣节点上的用户行为度量f(N)。
f(N)=∑ni=1pi*Ai(3)
式中:∑ni=1pi=1,n为用户行为的分类数目。
用户的行为度量可以衡量不同行为对用户隐式兴趣获得的贡献,用户的隐式兴趣通过公式(4) 计算得到。
Is(N)=l(N)+1lmax(N)+1 f(N)(4)
式中: l(N)表示用户行为目标对象在用户兴趣模型本体树中的节点层次; lmax(N)表示用户兴趣模型本体树节点的最深层次; f(N)表示用户行为度量。
2用户兴趣的更新
21兴趣的空间扩散
用户对商品的兴趣会在商品的购买过程中迁移并最终确定,这种迁移称之为用户兴趣的空间扩散。例如,用户A在购买了手机之后,其感兴趣的商品就会由手机类商品变迁到与手机相关的其他商品,如移动电源、手机硅胶套等。也就是说,用户兴趣的空间扩散是与当前兴趣相关的。表现在用户兴趣本体模型上,这种扩散表现为与当前兴趣节点Ni相关的兴趣节点集合。
由于用户的兴趣点之间是相关的,这种相关性在用户兴趣模型中表现为本体树节点之间的结构和语义关系(如节点距离、节点间的父子关系、节点之间的特征属性相似关系等)的相关性,如图2所示。已知用户i对商品Mj具有兴趣,由于用户兴趣之间存在相关性,并且当前用户的兴趣因为兴趣相关性扩散,从而影响用户对其他商品的兴趣,这种兴趣扩散可以缓解用户兴趣模型的数据疏松问题,用户兴趣扩散采用公式(5)~式(6)计算。
fi(N,Mj)=I(N)/(1+exp(-d(N,Mj)*t))(5)
Ir(N)=∑nj=1fi(N,Mj)(6)
式中: fi(N,Mj)表示用户i的已有兴趣Mj对兴趣N的影响;Ir(N)用户在兴趣节点N的关联兴趣值。
22商品属性扩散
用户在电子商务平台上浏览商品时,往往并没有欲购买商品的明确目标,只是提出对商品功能、特点的要求。如用户B希望自己能购买一个屏幕较大,具有看电影、听音乐、上网收发邮件、浏览新闻等功能的手持设备。此时,本系统为精确定位用户关注的商品,收集用户所需要的商品的主要特征,利用用户搜索的商品特征属性进行扩散匹配,为用户推荐最符合需求的商品。
图2兴趣的空间扩散
利用用户搜索时提交的商品特征属性,匹配现有商品的特征,通过计算相似度定位感兴趣的商品,确定商品的兴趣值。设属性集合B={b1,b2,…,bn}为用户搜索的属性集合,Ai={ai1,ai2,…,aim}为兴趣节点Ni具有的特征属性集合,可能感兴趣的商品即兴趣度通过公式(7) 计算。
Ia(N)=Sup(B)∩ Sup(Ai)Sup(B)∪Sup(Ai)*Ii(N)(7)
本系统中用户i对兴趣节点N的兴趣值可用公式(8)计算得到。
Ii(N)=α1Is(N)+α2Ir(N)+α3Ia(N)(8)
式中:α1,α2,α3∈R,且α1+α2+α3=1。
23兴趣的时间更新
人们对某件事物的兴趣度大小随着时间的推移而发生先快后慢的增长,因此人们采用时间函数来描述这种变化规律。 林鸿飞等人采用了基于兴
趣聚类的方法来描述用户兴趣的更新和扩散,未能考虑用户兴趣扩散和时间的关系。时间窗是解决上述问题的一个较好的方法,用户的长期兴趣是相对较稳定的兴趣,随时间的变化较慢,如何划分长短期兴趣是难以克服的问题。更多的研究者选择采用Logistic模型描述用户兴趣随时间的变化规律,因为该模型能够描述用户兴趣随时间推移先快后慢的增长规律,最终趋于稳定。本系统也采用Logistic模型来描述时间对用户兴趣度的影响。
用户对商品N的兴趣度随时间推移的变化规律可采用公式(9)计算。
Ii(N)=Ii(N)/(1+exp(-(α+βt)))(9)
式中:α,β∈R且α+β=1,取α=β=0.5。
3混合的个性化推荐
UMARS系统包括用户数据采集、用户模型创建、用户模型进化和推荐模块四部分组成。用户数据采集模块负责收集用户的年龄、职业等基本信息、用户在网站中的购买记录以及行为数据,并对收集到的用户数据进行必要的预处理;用户模型创建模块负责根据采集的用户数据,为首次登录系统的用户创建用户兴趣模型;用户模型进化模块主要对已有用户的兴趣进行时间更新、空间扩展和基于商品属性的兴趣扩展;推荐模块主要综合运用用户模型的相似度计算以及商品属性匹配度计算,为用户推荐精准的感兴趣商品。系统架构如图3所示。 图3系统结构图
在UMARS系统中,基于相似用户推荐是通过用户模型相似度计算获得与当前用户具有相同或相似兴趣的若干个用户,采用Top N算法进行过滤,然后将相似用户感兴趣的商品推荐给当前用户。用户模型的相似度计算采用了余弦相似度计算方法。
Sim(i,j)=∑nk=1Iik(N)Ijk(N)∑nk=1I2ik (N)∑nk=1I2jk (N)(10)
式中:Iik(N)、Ijk(N)表示用户i和j对兴趣项目k的兴趣度值。
基于商品属性内容推荐,是根据用户查询的内容,通过和商品库中商品的属性进行相似性计算,接着采用Top N方法进行过滤,最后将得到的属性相似的商品推荐给当前用户。属性相似性计算方法如公式(11)所示。
SimA(B,Ai)=Sup(B)∩ Sup(Ai)Sup(B)∪Sup(Ai)(11)
式中:B为当前用户搜索的商品属性向量,Ai为商品库中第i个商品的属性向量。
4实验及分析
41实验数据及评价
通过淘宝网平台开放的API获取商品分类和属性条目以及用户数据,选取了2142名用户交易记录,每名用户实际发生交易均超过10次,共36726条记录,时间跨度超过5个月。采用熵权法计算[16]得到用户七种浏览行为的权值,如表2所示。
表2熵权法计算行为权值
动作A1A2A3A4A5A6A7
权值0.110.130.110.130.190.210.13
UMARS系统根据用户的购买记录、浏览行为等计算用户兴趣度,并利用用户模型的相似度计算和属性相似度计算,通过Top N方法为用户提供可供其选择的商品集,如果用户选择并浏览该商品集中的商品,则表示系统推荐是准确的。于是本文采用用户实际点击商品数占推荐商品个数的比例,即利用推荐命中率PR[17]来检验UMARS系统推荐的准确性,如公式(12)所示。
PR=∑ni=1ClickNumi∑ni=1RecItemsi(12)
式中:i为第i次推荐,ClickNumi代表客户在第i次推荐中点击所推荐商品的数量,RecItemsi表示第i次推荐的商品集中商品的数量。n为对当前用户推荐的次数。
42实验分析
首先,根据用户的购买记录和浏览行为得到用户的兴趣本体树,采用基于相似用户的协同推荐和基于商品属性内容匹配的混合推荐方法得到Top N的推荐商品集,然后统计用户的推荐命中率,得到如图4所示的推荐命中率曲线。其中MT为文献用户显意识下的多重态度个性化推荐算法,US为基于用户模型和属性扩散的混合个性化推荐。
推荐商品数/个
图4算法的命中比比较
本系统利用商品的类属和商品的属性进行推荐,同时,将用户兴趣随时间和空间的演化运用到推荐当中,命中率呈现较为快速的增长。但随着商品的增多,命中率呈现下降趋势,当商品数量超过500后增长趋势下降较为明显。这是因为随着商品数量的增多,商品的属性数量增速明显,符合属性的商品数量随之增多,从而导致命中率增速下降。
5结束语
本文以淘宝电子商务平台为依托,提出基于用户模型和商品属性扩散的混合个性化推荐系统,通过将用户兴趣进行时间演化和空间扩散的方法,简化了推荐系统的实现。同时,通过商品属性匹配的技术更加精准的为用户提供推荐服务。最后实验验证了该方法在提高了推荐系统效率和推荐命中率等方面具有较为明显的效果。
参考文献:
[1]余力,刘鲁. 电子商务个性化推荐研究[J].计算机集成制造系统, 2004,10(10):1 306-1 313.
[2]刘华. 基于关联规则的个性化推荐系统研究与应用[D].上海: 华东师范大学, 2011.
[3]曾春,邢春晓,周立柱. 基于内容过滤的个性化搜索算法[J].软件学报,2003, 14(5):999-1 004.
[4]庄景明,王明文,叶茂盛. 基于内容过滤的农业信息推荐系统[J].计算机工程,2012, 38(11):38-41.