面向电子商务海量数据的智能挖掘技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:isnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机和网络技术的迅猛发展,Internet已经融入到人们日常生活中的各个方面,它在不知不觉间影响着现今社会人们的生活习惯。随着Web2.0时代的到来,使得互联网信息的创建和传播变得越来越容易。海量的网络信息使用户的信息需求得到了满足。但是,信息量过多也绝对不是什么好事,人们也在承受着信息过载(information overload)带来的困扰。在这个时代,无论是信息需求者还是信息供应者都面临着巨大的挑战:对于信息需求者,从海量的互联网信息中找到自己感兴趣的信息将是一件相当困难的事情;对于信息供应者,让自己供应的信息脱颖而出,得到广大网民的认可,也是一件相当困难的事情。众所周知,为了解决信息过载的问题,在不同的时期人们提出了许多不同的方法。总结起来,分为三个主要发展阶段,即导航、检索和推荐。导航,随着互联网网站数量的指数级增加,导航已经逐渐退出历史舞台,目前我们常见的分类目录网站就属于这一类,如国内的Hao123、国外的Yahoo和DMOZ等。检索,百度、谷歌等搜索引擎皆属于此类,人们只要在搜索框中输入相应的关键词,就可获取自己想要的信息。但很多时候人们并不知道自己的明确需求,此时,就需要进行推荐。推荐,根据用户的历史行为,为用户建立兴趣模型,从而主动地为用户提供他们想要的信息。随着Internet的发展及国家相关政策的支持,电子商务网站如雨后春笋般涌现出来。传统商店受经营场所面积及货架成本制约,不能将所有的商品展示出来。但电子商务网站不受这些因素影响,能够用比较低成本展示并出售更多的商品。如何从海量的同质商品中选出自己满意的商品,这是用户比较关注的问题;如何让用户从海量的商品中选择自己的产品,也成为影响电子商务网站发展的重要因素。将推荐系统应用于电子商务网站,不仅能提高电子商务网站的业绩,也能对用户提供较好的服务,从而避免用户流失。因此,电子商务网站的推荐系统成为了当前学术界及产业界的研究热点。本文首先对当前常用推荐算法分类进行了介绍,并通过简单的示例描述了各个推荐算法的原理,接合亚马逊电子商务网站说明了推荐系统在实际环境中的应用。其次,本文针对HTML文档开发了一套信息采集抽取系统。系统利用开源的网络爬虫Heritrix对电子商务网站的网页进行爬取,然后采用开源的JSoup进行信息抽取。为验证系统的性能,我们对国内最大的B2C电子商务网站天猫商城及国内最大的B2B电子商务网站阿里巴巴的销售记录进行了采集抽取,并得到了良好的实验结果。再次,传统的基于物品的协同过滤算法和基于用户的协同过滤算法存在矩阵稀疏的问题,一旦将稀疏矩阵补全,则又会出现存储空间过大及计算时间过长的问题。针对该情况,本文对隐语义模型LFM(Latent Factor Model)进行了研究,结合目前常见的标签系统,提出了基于标签的推荐算法。根据标签的生成方式,一般分为两种:一种是由专业的编辑对物品打有限的标签;另一种是让用户根据自己的感知给物品打上相应标签,即UGC(UserGenerated Content,用户生成的内容)。这样,UGC标签既能反映用户的意识,又描述了物品的某种属性,从而将用户和物品联系了起来。目前,很多Web2.0网站都带有UGC标签系统。最后,我们通过相关数据集对该算法就进行了评测,并取得了理想的结果。
其他文献
自从江苏电视台以《南京零距离》开启了中国电视新闻的民生之路,民生新闻就成为中国城市电视荧屏上一道亮丽的风景线。本文探讨盟市电视台的民生新闻栏目如何走出误区,在新闻
SOA(Service—Oriented Architecture)对现代软件开发模式产生了深远的影响,它通过服务的发布、发现以及绑定等机制为其他的应用程序提供服务。SOA具有松散耦合、粗粒度、互操作
多级关系数据库中推理控制问题是信息安全领域内的一个重要研究课题。由于推理方法的多样性,到现在为止还没有一种通用的推理控制策略。本文将研究多级关系数据库系统基于函数
江元友,今年52岁,是海安县隆政乡党委宣传委员。从二十岁开始,他就为上级报刊电台和县广播站写稿。近三年来,他被县以上新闻单位用稿200多篇。作为党的宣传干部,江元友把搞
随着Internet的飞速发展,传统电信运营商迫切希望将业务领域拓宽到Internet以寻求新的增长点,而Internet用户也希望能够使用到便捷、可靠的电话网服务,电信网与互联网业务互
自《中国人才报》去年6月11日爆出“双胞怪胎”丑闻之后,温州市《致富信息报》步其后尘,于11月了日又演出一幕“三胞怪胎”丑剧,再次拍卖新闻事业的良心,败坏社会主义新闻工
多连接操作是数据库领域的重要操作之一,其优化问题属于NP问题,也是数据库领域的一个没有很好解决的问题。随着超大规模数据库和数据仓库的出现,多连接查询优化越来越深地影响着
眼下,报纸舆论千篇一律的现象较以前少了,对于某个重大问题,常常是仁者见仁,各抒己见。报纸上开始出现“舆论不一”,这不 Right now, there are fewer stereotyped newspap
期刊
伴随着信息时代的来临,多媒体视频数据与日剧增,已经成为各类信息系统的主要数据来源。然而由于视频本身所具有的线性和非结构化数据形式,如何对海量视频搜索出用户感兴趣的
从1984年到1986年,我们写的三篇报道被评为全国好新闻:1984年我们与杜国堂、陈宪文合写的消息《东鸭鸽营社员跑步成风》(见河北日报1984年1月19日一版),被评为全国二等好新