刍议基于用户聚类的协同过滤推荐算法

来源 :中国电子商情 | 被引量 : 0次 | 上传用户:jiangdefeng1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  引言:在电子商务推荐系统中,协同过滤推荐算法在个性化的推荐系统中得到广泛应用,随着其应用的深入,协同过滤推荐算法也存在着一些问题,如“冷启动”问题、“数据稀疏性”问题等,于是人们开始对协同过滤推荐算法不断的加以改进。本文就基于用户聚类的协同过滤推荐算法进行了浅显的探讨。
  随着网络技术的发展,电子商务推荐系统已经成为很多企业进行广告宣传和商品销售的重要平台。在电子商务推荐系统中,协同过滤推荐算法在个性化的推荐系统中得到广泛应用。协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中应用的一种技术。协同过滤推荐能对用户的兴趣进行分析,并在用户群中找到指定用户的类似兴趣用户,通过分析相似兴趣用户对某一信息的评价,从而形成系统对该指定用户对此信息的喜好程度预测。随着其应用的深入,协同过滤推荐算法也出现了一些问题,如“冷启动”问题、“数据稀疏性”等,于是基于用户聚类的协同过滤推荐算法开始逐渐得到应用[1]。
  1.电子商务个性化推荐简述
  随着我国电子商务的飞速发展,面对大量的信息资源,消费者不知道该如何选择。为了彻底解决这一问题,运营商提出了制作个性化推荐系统(Personalized recommendation system)[1]的设想。电子商务个性化推荐系统主要是使用电子商务网站,为用户提供商品的信息并提出购买意见,帮助客户选择商品或者信息。一般的个性化推荐系统主要有三个模块构成:行为记录模块、处理模块和推荐模块[2] 。行为记录模块用来记录用户的各种操作,例如收藏、购买、下载、评分等,然后对这些操作进行有效的汇总和处理。处理模块是个性化推荐系统的核心,它实现了对用户操作记录的分析,并采用不同算法建立起模型来描述用户的喜好档案。最后,通过推荐模块,形成适当的分析结果推荐给用户,其形式包括预测评分、购买建议、文本评价等。推荐方法是推荐系统的中心,直接决定了推荐系统的效果[3]。
  2.传统协同过滤推荐算法存在的问题
  协同过滤算法是个性化推荐中应用最广泛的一种方法。这种技术是基于邻居用户的兴趣爱好来对目标用户的兴趣爱好进行预测。通过统计技术,将与目标用户有相同兴趣的邻居用户寻找出来,进而根据目标用户的邻居用户的偏好形成推荐。该种算法,主要是由数据表示、形成邻居、产生推荐三个阶段构成。协同过滤推荐算法虽然具有一定的优势,但是也有鲜明的缺点,主要表现出“冷启动”问题和“数据稀疏性”问题[4]。首先,“数据稀疏性”问题是很多推荐技术面临的重要问题之一。稀疏性(Sparsity)主要是由于推荐系统中用户信息有限,用户评价或所购买的产品的数量在总数中所占的比例较小,使得某一项目的偏好矩阵中数据较为稀疏,这样找到相似用户就很不容易,使得系统的推荐性能表现很差。冷启动 (cold-start)问题主要表现为新项目问题和新用户问题。新项目问题就是没有人评价或购买过的某一项目,其相应推荐也没有,新用户问题就是没有购买或评价过任何产品的新用户得不到任何推荐。传统协同过滤推荐在单一内容项目推荐上具有一定的适用性,但是现实生活中,项目多内容个性推荐情况较多,其准确率较低。
  3.基于用户聚类的协同过滤推荐算法
  3.1用户聚类
  用户聚类就是试图找到具有共同喜好的用户组,将用户聚集成不同的簇,同一簇内的用户具有较高的相似性,而不同簇中的用户则具有较低的相似性。通过对用户的聚类,可以发现群体用户的兴趣所在,以提高处理海量增长的数据集的效率。
  根据用户的特征相似性,采用蚂蚁自组织聚类的思想对用户进行类聚。先从n个数据对象中设定聚类数目k和k个聚类的初始聚类中心,计算出用户与聚类中心的特征相似性[5],逐个将需聚类的用户样本按最小距离准则分配给K个聚类中心中的某一个聚类中心。计算各个聚类中心的新的向量值,求各聚类簇中所包含用户的均值向量。并以均值向量作为新的聚类中心。不断重复这一过程直到标准测度函数开始收敛为止,最后生成聚类簇。由于该算法能有效辨识用户之间的特征相似性,因此聚类结果较为合理。
  3.2查找邻居用户
  邻居用户的查找是在各个聚类簇中进行的,因此,首先,根据用户的基本特征数据,综合计算相似性,之后以聚类用户的基本特征数据和聚类用户对项目的评分数据,计算出目标用户与其余所有用户两两之间的综合相似性。其次,邻居用户的选取采用k均值算法来进行,通过用户之间综合相似性排序,选择相似性值最大的k个用户作为目标用户的邻居用户。
  3.3预测目标用户项目评分并得出推荐
  在得到邻居用户之后,可以根据邻居用户对项目的评分来预测目标用户对项目的评分。在对目标用户的预测评分过程中,其计算方法与传统协同过滤算法具有一定的相似性,但基于用户聚类的协同过滤推荐算法中的目标用户的预测评分计算公式有所变化,主要用综合相似度将用户对项目偏好的相似性进行替换。基于用户聚类的协同过滤推荐算法,由于考虑了用户对项目的偏好以及用户之间的特征性,而对于新注册的用户,可以通过注册信息对其进行聚类,同时在聚类簇中计算其他用户特征的相似性,从而得到推荐,使传统协同过滤推荐算法中的“冷启动”问题得到解决。此外,通过用户聚类,在用户所属聚类簇中查找邻居用户,降低了邻居用户查找计算量,同时具有相似特征的用户评分对于目标用户具有更大的重要性,使协同过滤推荐更加准确,解决了传统协同过滤推荐中的数据稀疏性问题。
  4.结语
  个性化推荐系统经过20多年的改进取得了长足的发展。随着应用领域的不斷拓展,将其他领域技术与推荐技术相结合逐渐成为一个研究热点,并且应用前景十分广阔。不管从研究方面,还是在应用方面,相对于发达国家而言,我国的电子商务推荐系统都存在较大差距。本文简要论述了基于用户聚类的协同过滤推荐算法,其中尚有很多函待进一步研究的问题,限于篇幅就不一一赘述。相信在未来个性化推荐研究中,我国的个性化推荐必将取得更大的发展。
  参考文献
  [1]余力,刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统,2012,10(10):1306-1312.
  [2]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展.2009,19(l):1-15.
  [3]王宏超,陈未如,刘 俊.基于客户聚类的商品推荐方法的研究[J].计算机技术与发展,2011,18(7):212-214.
  [4]程 岩,肖小云,吴洁倩.基于聚类分析的电子商务推荐系统[J].计算机工程与应用,2012(24):175-177.
  [5]张 娜,何健民.基于项目与客户聚类的协同过滤推荐方法[J].合肥工业大学学报:自然科学版,2011,30(9):1159-1162.
  (作者单位:1.河北大学数学与计算机学院;2.石油物探学校)
其他文献
引言:高速公路建筑控制区的管理是一项艰巨而长期的工作,笔者结合基层日常管理工作的实际,简要分析了高速公路控制区管理的难点,并根据日常工作经验提了几点对策和建议。  随着我国经济建设不断发展,特别是高速公路沿线经济的迅猛发展,给高速公路路政管理部门在建筑控制区的管理上带来了许多新情况、新问题,高速公路建筑控制区的管理,成为路政管理工作的重点和难点。法律法规赋予了路政部门对建筑控制区的管理职责,而在实
期刊
引言:未来的战争扩展到海、陆、空、天、电、磁、光等多维空间控制与反控制权的争夺,从而形成了体系的对抗。以信息战为中心,以远程精确打击为主要手段的现代战争模式已形成,精确制导武器系统将成为决定未来战争胜负的重要因素。精确制导技术就是武器系统中的关键部分,本文浅述精确制导技术的现状及发展。  一、精确制导技术的概念  精确制导技术是一门涉及多个学科的综合性技术,目前仍无公认的统一定义,其基本含义为:以
期刊
引言:模具炉生产线是为配合铝行业用户挤压机而设计制造的,主要用于其厂内铝合金模具挤压前的均匀化热处理。针对模具加热炉6台共用一套PLC系统,而控温却各自独立的特殊情况,使用了仪表与PLC相结合的全自动控温方式,该生产线六室集中控制,独立控温。电控系统由电源柜、风机柜、调功柜、仪表柜、等组成,采用以德国西门子公司的S7-300为控制核心,通过分别启动六块控温仪表及配备触摸屏等,可实現设备的温度控制、
期刊
引言:电力作为地区和国家衡量当地经济发展的主要标志,其在国民经济中占据着相当大的比重,文章结合电力信息安全的发展现状和电力信息运行维护中所常见的一些问题做了阐述,简单地就电力信息安全运行维护与管理进行了分析,希望能给从事本行的同仁们一些建议和意见。  我国的电力信息化发展相对比较晚,在沿海一些发达城市,上个世纪中期才有了电力生产自动化的应用。电力信息的自动化发展给电力企业带来了诸多便利,特别是在电
期刊
引言:王行庄煤矿南风井建设进回风井即将落底,进入二期工程施工,为加快工程施工进度,必须进行临时改绞,以获得较大提升量,同时保证施工人员上下井的安全。本文重点对改绞的必要性、方案和工程量进行论述、比较,最终确定合理的临时改绞方案和具体施工内容等,对王行庄煤矿南风井的建设具有重要指导意义。  王行庄煤矿南风井建设项目,是根据王行庄煤矿原初步设计和矿井开拓接替规划要求,有效解决南翼通风线路长、通风阻力大
期刊
引言:班组是企业的细胞,是企业生产经营活动的基础环节。加强班组建设是优化现场生产安全要素的需要,是企业物质文明和精神文明建设的需要。加强班组建设,建设高水平、高素质的班组,对实现企业经营目标和提高企业管理水平、促进企业和谐发展有着重要的意义。  一、充分认识企业班组建设的重要性  班组是企业组织生产经营活动的基本单位,是企业一切工作的立足点?班组建设,是企业综合性的基础建设,是一个大的系统工程。只
期刊
引言:计算机技术的飞速发展,使得其应用于各个领域,这里也包含了电力系统。本文就整个电力系统如何在这样的环境之下如何去建立起安全监控系统,使整个电力系统更好的发展,为整个国家的建设以及人们的生活更好的服务。  作为国家最重要的能源之一—电力,其发展的速度将直接同人们的生活质量发展速度是联系在一起的,我们都知道现代科技的高速发展,电力系统也走进了信息化的时代,引用数字化系统,这样整个系统将会更加的可靠
期刊
引言:中国是以煤炭为主要能源的产煤大国,也是消费世界煤炭半数以上的国家,因此对煤矿生产及管理技术有较高的要求。在煤炭生产中,煤矿机电运输设备分布范围广且工作环境恶劣,随着矿井开采深度的不断增加,地质条件也越来越复杂。为了保障煤矿安全、高效的生产,就必须不断提高机电运输设备的自动化运行及加强对设备的维修管理。  1 煤矿机电设备维修管理现状及存在的问题  近年来,随着经济的快速发展和技术的不断创新,
期刊
引言:随着市场经济的发展,人们对电子产品的质量要求越来越高。为了满足人们对电子产品的需求,电子产品技术不断革新,以确保电子产品的使用性、安全性和可靠性等性能。但是在对电子产品的可靠性进行分析时并不了解设计信息和故障过程,致使产品的性能设计与可靠性设计相分离,造成“两张皮”的局面。本文以基于故障物理的可靠技术为指导,研究电子产品可靠性设计优化方法,希望有效解决电子产品的性能设计与可靠性设计相分离的问
期刊
引言:条形码技术是在计算机的应用中产生和发展起来的一种自动识别技术。它是为实现对信息的自动扫描而设计的,是快速、准确、而可靠的采集数据的有效手段。条形码技术的应用解决了数据输入和数据采集的“瓶颈”问题,为物流信息管理提供了有利的技术支持。  我国物流行业应用条码技术是从20世纪90年代中期才开始起步的,最初主要是从生产线物流管理、现代物流配送中心开始应用,大致经过了以下3个阶段:技术启蒙阶段、起步
期刊