基于Scrapy爬取电商平台数据及自动问答系统的构建

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:aibertini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,互联网信息急剧增长,依赖关键字进行搜索的传统搜索引擎技术已日益不能满足用户快速准确检索信息的需求。自动问答系统作为信息检索领域的一种高级形式,.已然成为近年来研究的热点和重点。研究构建中文自动问答系统,满足用户直接以自然语言提出问题并能快速准确地获取答案,有着十分重要的意义。本文利用网络爬虫技术,从电商平台爬取商品数据信息,继而构建电商平台的中文自动问答系统以方便用户准确获取相关商品信息,主要工作如下:首先,选用Python语言编写的开源爬虫框架Scrapy,研究该框架的搭建和使用,并选取网易考拉海购平台作为本文研究对象,分析考拉上商品的数据结构,最后基于Scrapy框架编写网络爬虫程序并成功爬取考拉所有商品数据。其次,构建Web项目,并将项目发布到开源的中间件Tomcat上,这样用户只需在浏览器中输入相应的链接即可看到考拉商品数据的动态关系图谱并直观的看到商品的各类信息,实现了商品的可视化展示。再次,构建考拉商品知识的词典和词性库,实现了结合正向最大匹配算法和逆向最大匹配算法的分词算法,自定义了有特色关键词提取规则,并实现了相似度计算的编辑距离算法,最终设计实现了一款基于考拉商品知识库的中文自动问答系统工具KOALAASK。最后,对KOALAASK系统工具进行了一系列功能性的测验,实验结果表明该系统工具具备高性能,反应迅速的特点。实验中通过统计分析的方法,即对799个不同领域的商品信息进行提问并获取答案,计算相应准确率,证明了系统工具在该特定商品知识领域拥有相当高的准确率,具有不错的实用性。
其他文献
本研究探讨缺血性脑卒中与高血压、糖尿病、心脏病、颈动脉粥样硬化、血脂、血浆纤维蛋白原、高尿酸血症、吸烟、饮酒及肥胖等危险因素的关系,并就最新进展进行综述。
近年来,集散控制系统得到广泛的应用,在控制技术上产生了巨大的影响。本文综述了集散控制系统在工业控制中的应用现状及其最新研究进展。同时也指出了集散控制系统在实际应用
文章强调了公司治理对内部控制的重要影响,从公司治理的原因视角分析入手,以内部控制的五要素为基础框架,对中小企业与大企业的内部控制进行了比较研究,为帮助中小企业找到适合自
爬虫技术是现在大数据时代必不可少的技能,而Scrapy是python开发爬虫一种非常热门的框架,本文主要阐述怕python爬虫的技术选型,Scrapy框架实现分布式爬虫的基本原理、以及应
<正>1.中风。因高血压伴脑内小动脉硬化,使其突然破裂出血,常发生昏迷、偏瘫等。2.眩晕。因心、脑血管疾病以及颈椎病等引起,一般无意识障碍。3.晕厥。大脑一时性严重缺氧缺
期刊
在摆线数学方程的基础上推导出了摆线上一点的切线和法线方程 ,求出了摆线针轮减速器中各高副接触点处法线汇交点的坐标 ,并依据摆线轮的运动形式 ,建立了摆线上一点压力角的
<正>为保障并促进江苏省社区矫正工作顺利进行,今年1月25日,省财政厅、省司法厅联合印发了《关于做好社区矫正经费保障工作的通知》(以下简称《通知》)。
目的观察多西紫杉醇联合奈达铂治疗晚期头颈部肿瘤的疗效及毒副反应。方法对30例晚期头颈部肿瘤进行化疗,方案为多西紫杉醇75mg/m2,dL;奈达铂80mg/m2,dL。21d为1个周期,治疗
根据甲醇制烯烃流化床反应-再生工艺对SAPO-34分子筛催化剂的粒径分布、球形度、耐磨强度等的要求,针对催化剂工业化成型的喷雾干燥工艺,综述了浆液的配方、性质、喷雾干燥工
<正>2016年12月17-18日,以"多学科视野下的班级与班主任研究"为主题的第五届"中国班主任研究"圆桌论坛在南京师范大学教育科学学院举行。来自全国各地的专家学者、高校教师、