基于Scrapy框架爬虫和数据挖掘的当当网页信息分析

来源 :湘潭大学 | 被引量 : 2次 | 上传用户:kuxinghuajia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的二十年里,网上购物从无人问津发展到人人网购,这足以说明电子商务现已处于比较成熟的阶段,它的出现将消费者的购物方式从线下变为线上,方便了消费者的购物同时也带来了新颖的购物方式。2019年双十一购物节天猫平台的交易额达到了2684亿元,同比增长了25.71%,说明网购用户规模在不断扩大,网购在人们日常生活中越来越重要。对于网购消费者来说,首先通过浏览商品的网页信息来选择自己意向的商品,而这些信息对网购消费者的选择和电商经营者的营销方案的制定会有重要的影响,如果能够很好的利用这些信息,可能会为购买者提供更加优质的服务,也可能会为卖家营销决策提供指导,因此,有效的利用商品的网页信息,挖掘其中隐藏的价值是具有一定的现实意义的。由于网页数据的数量庞大且其内容比较繁杂,获取这些杂乱分布在网页的数据信息并不容易,所以高效准确的获取需要的网页信息成为本研究的首要内容,而基于网络爬虫技术的发展,为本文获取网页数据提供了技术支持。本文将使用Python获取电商网页的数据并对爬取的数据使用数据挖掘方法对其分析,期望能够发现其中隐藏的有价值的信息,可以为电商运营团队的决策提供帮助。电商网页信息分析主要包括数据的爬取和对数据的分析。本文对当当网网页信息的分析主要内容有:其一使用python设计一个基于Scrapy框架的爬虫,详细介绍了爬取网页中的书籍名、作者、销售量等信息的方法和将爬取网页信息储存在My SQL数据库中的过程,以便为后面的网页信息进行挖掘打好基础。其二对爬取的数据使用适当的方法对其分析,主要有对数据做了描述性分析,对数据进行预处理、文本向量空间构建、最佳聚类数的确定、使用k-means聚类算法对文本数据进行分析,最后对输出结果进行了解释,从而挖掘文本信息中所蕴含的价值。
其他文献
目的膀胱癌作为泌尿系最常见的恶性肿瘤之一,一直位于全球的新发肿瘤的前十,在我国膀胱癌一直是我国男性最常见的泌尿生殖系恶性肿瘤,其发病率及死亡率有逐渐增高的趋势。膀
沙淤村地处盘县西部大山深处,山路崎岖、地势陡峭,过去唯一的通村公路,黄土漫天,晴通雨不通。再加上严重缺水,村民生活艰苦,“贫穷落后”一度是我们村的标签。
在经济全球化的大背景下,随着科学技术、知识经济、产业经济以及社会价值观的发展变化,现代企业间的竞争已由传统的资源、技术、科技的竞争转化为优秀人力资源的竞争。面对新的竞争,全球越来越多的企业开始将人力资源管理放到公司的战略管理层面,以构建和保持企业的可持续发展和长期竞争优势。在该背景之下,企业如何打造和维持优秀的企业雇主品牌才能够吸引、发展和保留优秀人才以促进企业自身的发展已成为大部分企业共同要面对
急性毛细支气管炎是2yr以内婴幼儿较常见的一种呼吸道感染性疾病,尤其以6mo内多发。引起毛细支气管炎最常见的病毒是呼吸道合胞病毒,其次为流感病毒、副流感病毒和腺病毒,少数由
基于使用计算机自动绘制矿井通风系统图的需要,利用面向对象的程序设计思想,设计通风系统巷道的自动绘制算法,提出多条巷道连接于一点的处理方法,引入多条巷道在空间交叉的消隐方法。该算法在孔庄矿局部通风系统中进行了应用,结果表明,能一次性、连续、准确、快速地绘制出井下所有的通风巷道。
伴随我国科学技术的不断发展,城市化进程的不断加深,社会矛盾也在不断凸显。城市贫困家庭这一特殊群体呈现出了长期贫困的特点,阶层分化呈现出阶层固化趋势。本文首先对城市
根据现场需求,给出了一种旋转机械的转向检测方法,设计了一套转向检测的控制逻辑,提出了检测探头的现场安装要求和检测仪表的性能要求。
研究事物之间隐藏的关联关系有助于理解人类认知和记忆的机理。作为大数据分析的重要基础,数据关联关系的挖掘与发现可以有效的帮助人类在面对复杂海量的数据时,快速找到有价
终端区空域资源有限,飞行状态复杂,复杂度反映管制运行情况和管制负荷,影响管制服务能力。扇区划设通过对终端区运行时的复杂度进行客观、定量的评估,调整扇区划分策略,减小
喷墨3D打印技术作为一种新型的无接触式制造成型技术,可以打印出任意复杂实体结构。该技术具有成本低、打印速度快的优势,可实现批量打印,能够极大地提高效率、节省成本。石