基于爬虫与数据挖掘的电商页面信息分析

来源 :兰州大学 | 被引量 : 12次 | 上传用户:Willy_Liang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网产业的迅猛发展,计算机相关技术的跳跃式演变以及行业规模的不断扩大创新.电子商务从最初的不被信任到现在动动手指就可购物,电商平台对老百姓生活产生的影响不言而喻.2017年“双十一”这天,淘宝网单日平台交易额突破了1682亿人民币,人民的日常生活早已离不开电子商务平台.在电商平台的网络交易中,消费者可以通过浏览商品网页获取商品的各类信息,以此决定是否购买,而这些信息又可以为市场和营销带来更好的转变机会.因此,本文将结合爬虫技术与相应的数据挖掘方法对电商的网页信息进行采集与探究性分析,期望构建一套从数据提取到数据挖掘的系统性研究方法,帮助店家及消费者更好的探究需求,并为丰富电子商务市场营销策划提供参考.从消费人群来看,80、90后年龄段的消费者占比近八成多,是电子商务消费的核心主导力量,而该阶段的消费者都要经历面试及就业,因此选用西装为研究对象很具有代表性.本文通过搭建web自动化爬虫框架获取了淘宝网西装商品全部共8000多家网店的网页信息,并通过对数据信息检查选择出最适合该类数据的数据挖掘方法.最终决定使用描述性分析与回归分析、文本聚类分析相结合的研究方法,探索其潜在的数据价值,从而为飞速发展的电商产业提供系统优质的数据挖掘技术支持.本文主要工作分为六个部分:第一部分:绪论,主要阐述研究的背景、综述、研究的内容与结构安排.第二部分:数据提取与存储的方法介绍,简单阐述了需要使用的工具及其优缺点,为数据爬取奠定基础.第三部分:网页信息的处理方法,分别讲述了有关商品销售量的多元回归分析模型及对网页信息采用的“无监督学习”文本聚类方法.第四部分:K-Means算法的展开,从数据预处理、向量空间模型(VSM)、IDFTF-算法、与引用惯性权重的K-Means评价等详细记录了算法的实现流程.第五部分:实证部分,从环境配置、数据获取与存储、描述性分析、回归分析、文本聚类各环节构建一套系统的数据探究方法,最大化探索数据价值以达到研究目的.第六部分:总结与展望.为电商网页信息的数据挖掘及市场发展提供参考性建议支持.
其他文献
从乌蒙回旋战的史实中可以看出.红军在敌众我寡的形势下.采取机动灵活的战略战术,成功地利用国民党内部中央与地方的矛盾,地方与地方之间的矛盾及地方的自我保护意识,肖克同志就曾
他的传奇不仅在于他是一个伟大企业的缔造者,更重要的他是中国知识型创业者的典范、先进管理理念的传播者,他是激励许多立志创业的青年人的“精神领袖”。他和联想为中国企业确
中国与东盟的合作,必将加快结合部地区的经济社会发展和城镇化进程,而区域之间的竞争将表现为城市之间的竞争,特别是在各具优势和星落棋布的中国与东盟结合部城镇体系中,谁抢
(一)岁末年初、正值行政机构改革的时候,三年一届的乡(镇)换届工作又要开始了.和过去一样、乡官们关心的话题仍然是职务的升迁和工作的调动."听说×副乡长和县委领导的关
疫情冲击下舆论呈现出信息冗杂、舆论失焦甚至舆论极化的现象,以"央视新闻"微博为代表的主流媒体通过多样报道、权威发声、视点下沉的方式对舆论加以引导,打赢了疫情舆论攻坚
<正>为深入贯彻落实国家创新驱动发展战略,探索符合我国国情、适合科创企业发展的金融服务模式,经国务院批准,2016年4月,银监会、科技部、人民银行三部委联合印发了《关于支
近来,关于“白酒文化的本质是强暴”的论点在行业内引起轩然大波,且不说白酒文化是否正在进行着对消费方式的“强暴”,至少给热闹的白酒行业敲响了一记警钟。河南名酒张弓董事长
我和徐州天地人商贸有限公司接触很长时间了.相处得一直很愉快。徐州天地人商贸有限公司是安徽口子酒业股份有限公司徐州办事处,该公司从主管到各级业务员对自己的工作都非常的
20世纪80年代来,陶瓷酒瓶以其特有的艺术气质和历史文化积淀。受到市场青睐。由于市场需求增大,90年代中期,瓷都景德镇、陶都宜兴以及湖南醴陵等地,开始形成专业化的陶瓷酒瓶生产
期刊