论文部分内容阅读
伴随着计算机和网络技术的迅猛发展,Internet已经融入到人们日常生活中的各个方面,它在不知不觉间影响着现今社会人们的生活习惯。随着Web2.0时代的到来,使得互联网信息的创建和传播变得越来越容易。海量的网络信息使用户的信息需求得到了满足。但是,信息量过多也绝对不是什么好事,人们也在承受着信息过载(information overload)带来的困扰。在这个时代,无论是信息需求者还是信息供应者都面临着巨大的挑战:对于信息需求者,从海量的互联网信息中找到自己感兴趣的信息将是一件相当困难的事情;对于信息供应者,让自己供应的信息脱颖而出,得到广大网民的认可,也是一件相当困难的事情。众所周知,为了解决信息过载的问题,在不同的时期人们提出了许多不同的方法。总结起来,分为三个主要发展阶段,即导航、检索和推荐。导航,随着互联网网站数量的指数级增加,导航已经逐渐退出历史舞台,目前我们常见的分类目录网站就属于这一类,如国内的Hao123、国外的Yahoo和DMOZ等。检索,百度、谷歌等搜索引擎皆属于此类,人们只要在搜索框中输入相应的关键词,就可获取自己想要的信息。但很多时候人们并不知道自己的明确需求,此时,就需要进行推荐。推荐,根据用户的历史行为,为用户建立兴趣模型,从而主动地为用户提供他们想要的信息。随着Internet的发展及国家相关政策的支持,电子商务网站如雨后春笋般涌现出来。传统商店受经营场所面积及货架成本制约,不能将所有的商品展示出来。但电子商务网站不受这些因素影响,能够用比较低成本展示并出售更多的商品。如何从海量的同质商品中选出自己满意的商品,这是用户比较关注的问题;如何让用户从海量的商品中选择自己的产品,也成为影响电子商务网站发展的重要因素。将推荐系统应用于电子商务网站,不仅能提高电子商务网站的业绩,也能对用户提供较好的服务,从而避免用户流失。因此,电子商务网站的推荐系统成为了当前学术界及产业界的研究热点。本文首先对当前常用推荐算法分类进行了介绍,并通过简单的示例描述了各个推荐算法的原理,接合亚马逊电子商务网站说明了推荐系统在实际环境中的应用。其次,本文针对HTML文档开发了一套信息采集抽取系统。系统利用开源的网络爬虫Heritrix对电子商务网站的网页进行爬取,然后采用开源的JSoup进行信息抽取。为验证系统的性能,我们对国内最大的B2C电子商务网站天猫商城及国内最大的B2B电子商务网站阿里巴巴的销售记录进行了采集抽取,并得到了良好的实验结果。再次,传统的基于物品的协同过滤算法和基于用户的协同过滤算法存在矩阵稀疏的问题,一旦将稀疏矩阵补全,则又会出现存储空间过大及计算时间过长的问题。针对该情况,本文对隐语义模型LFM(Latent Factor Model)进行了研究,结合目前常见的标签系统,提出了基于标签的推荐算法。根据标签的生成方式,一般分为两种:一种是由专业的编辑对物品打有限的标签;另一种是让用户根据自己的感知给物品打上相应标签,即UGC(UserGenerated Content,用户生成的内容)。这样,UGC标签既能反映用户的意识,又描述了物品的某种属性,从而将用户和物品联系了起来。目前,很多Web2.0网站都带有UGC标签系统。最后,我们通过相关数据集对该算法就进行了评测,并取得了理想的结果。