面向大规模电商平台的商品信息采集与知识图谱构建关键技术研究

来源 :延安大学 | 被引量 : 0次 | 上传用户:lwolffcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模电商平台拥有海量的商品和与之相应的交易数据,针对这些数据的挖掘和分析,对于优化平台建设、增加产品销量、改进消费者购物体验等,都有着重要的研究价值。通常,研究人员通过抓包,分析商品页面产生的Http请求,寻找数据源,然后利用爬虫技术对其相应的数据进行抓取。当需要采集多个平台的商品数据时,由于平台的Http请求和接口参数各不相同,需要对每个平台进行抓包分析,进而导致投入的时间和精力会随着平台的个数成倍上升。如何快速采集不同平台的商品数据是一个挑战。同时,随着人工智能技术的快速发展,各种基于知识的智能应用层出不穷。知识图谱技术提供了一种从海量文本中抽取结构化知识的手段,被认为是机器理解语义,实现认知智能的基石。知识图谱将互联网中的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力,已经成为了各种基于知识服务的智能应用的基础设施。目前,已经有许多学者对特定领域知识图谱的构建与应用进行了探索。然而,已有的大多数研究主要侧重于构建方法的研究,而且领域知识图谱的构建往往需要结合其自身的特点进行。面对的领域不同,构建过程也不尽相同。基于上述问题,本文所做的工作主要如下:(1)设计并实现了一个面向大规模电商平台的商品信息采集系统。从电商平台中页面结构的共性、基本的交互流程、商品加载方式等几个方面进行分析,提出了一种面向不同电商平台的通用数据抓取策略。通过模拟浏览器操作的方法,结合Scrapy爬虫框架,可以快速实现对不同平台商品信息的采集。(2)商品知识图谱原型系统的构建。基于采集到的商品数据,结合电商平台的领域特征,详细的分析了面向大规模电商平台的商品知识图谱构建过程中,存在的优点与缺点。在此基础上,对商品知识图谱的构建方法进行了深入的研究。并且可以按照原型系统的构建方法,不断的进行规模上的扩充。(3)商品名称抽取算法的实现。提出了一种“停用词+规则”的方法,能够从不规范的商品名称字符串中提取出商品的名称。
其他文献
随着社会的不断进步,专利数量的陡然增长,进而引发的专利纠纷也迅速增加,传统手段已无法应对如此巨大的案件数量。及时完善专利纠纷行政调解制度将有利于发挥其高效解决纠纷的优势,缓解当前专利纠纷解决的压力。该制度是行政调解制度应用于专利纠纷领域的应有之义,符合现代行政法理论和国家治理能力治理体系现代化的要求,能够体现法的自由价值、秩序价值、公正价值,具备存在的法理基础。目前,该制度在我国基本成型、应用广泛
中国古代侵权责任制度发轫于秦汉时期,唐朝时得到了极大的发展,此后又经过宋、元、明、清各朝的发展,到清代时已相对比较完备。但纵览各朝各代法条,我们不难发现,有关侵权责任的规定始终散落在各种法律法规中,比较散乱。所以,我国古代并不存在系统的侵权法,这使得民众权利很难得到相应保障。及至清末,社会经济结构发生了巨大变化;西方法律思想在我国的传播,使得民众权利意识逐渐觉醒;同时,受欧日民法法典化浪潮的影响,
本文对酱油酱醪中的微生物进行了分离鉴定,根据微生物的菌落形态分离纯化出56株菌。根据菌落形态和生理生化特征,鉴定为乳酸菌、酵母菌和芽孢杆菌三类。进一步对各菌株进行形态学分析,查阅《伯杰氏细菌鉴定手册》,并通过对其进行生理生化实验,鉴定出分离的芽孢杆菌中有枯草芽孢杆菌,巨大芽孢杆菌,多粘芽孢杆菌,梭状芽孢杆菌,地衣芽孢杆菌以及苛求芽孢杆菌。并对枯草芽孢杆菌进行了分子生物学鉴定为解淀粉枯草芽孢杆菌。对
伴随我国经济的不断发展,宠物食品的需求量也日益增多。以鸡胸肉为原料的半干宠物食品,价格低廉,蛋白充足,对于宠物有很好的营养补充作用,在宠物食品行业中占据重要位置。但是半干宠物食品的保质期较短,贮藏过程中容易发生脂肪氧化、褐变等问题,而目前针对半干宠物食品品质变化及货架期的相关研究仍然较少。因此,本论文以鸡胸肉和红薯干为原材料进行实验,研究了产品配方、贮藏温度、包装方式、热风干燥条件对该鸡胸肉-红薯
随着终端技术的快速普及,赛博空间逐渐在人们的生活场域中起到更重要的作用。网络给人们生产生活带来巨大便利的同时,也成为思想交锋日益剧烈的新战场。网络意识形态是一项极端重要的工作,不断深化对网络意识形态的规律性认识是新时代一项重大课题。利用CiteSpace分析新时代网络意识形态的研究论文,有助于把握当前学界对网络意识形态问题的热点探讨与认识程度,有利于进一步展开网络意识形态的工作。
课外阅读是课内阅读教学的外延,但是由于高考的压力,高中生课外阅读的时间和数量非常受限,导致课外阅读的功能并没有完全地发挥出来。同时,它也是评价高中学生语文素养的重要参考准则,更是提升高中生写作能力的一个重要途径。因此,写作能力的高低既是高中学生语文素养的综合体现,也是影响高中语文教学成效的一个重要因素。随着新课程改革的发展,课外阅读与写作的结合越来越得到语文教师乃至整个语文界的重视,因此教师在作文
小组合作学习是新课改倡导的一种学习方式,在中学语文教学中已处于尝试阶段,它区别于传统的教学模式,以课堂上学生之间的合作学习为主,充分调动每个学生的学习积极性和热情,创造出一种气氛热烈的课堂环境,并且在其中学生可以实现自身的发展,因此这样的教学方式受到了广大教育者的推崇。本研究以陕西省榆林市一中分校为研究对象,根据该校语文课堂小组合作学习实施现状,通过问卷、访谈、课堂观察的方法,找出该校在新课改实践
研究目的本研究关注轻度认知功能障碍的早期筛查,旨在探索认知障碍的智能化检测,在智慧医疗的背景下,将传统纸质量表改编为电子化,开发了基于传统纸质版Mini-Cog量表的Mini-Cog电子化测评工具应用软件。并通过比较神经内科患者中传统纸质版Mini-Cog量表、Mini-Cog电子化测评工具以及MMSE量表数据一致性及结果相关性,分析Mini-Cog电子化测评工具应用软件在筛查MCI中的应用价值。
目的:幽门螺杆菌(Helicobacter pylori,Hp)的根除一直是目前研究的热点问题,我们将通过贝叶斯网状meta分析比较初次幽门螺杆菌感染患者治疗失败再治疗的相关疗法,重点比较各抗生素组合的铋四联疗法,此外还包括非铋四联疗法、三联疗法,为临床幽门螺杆菌初次治疗失败后治疗方案的合理选择提供循证医学的指导。方法:通过“幽门螺杆菌补救治疗随机对照”等检索词,2名医学研究者用计算机检索了202
目的:本实验为了探讨了奇壬醇对RANKL诱导破骨细胞前体向破骨细胞分化的影响及机制,首先建立了破骨细胞模型,然后检测了破骨细胞的细胞增殖活性,通过TRAP染色以及鬼笔环肽染色来证实破骨细胞,另外通过Western blotting和PCR技术检测了破骨细胞形成相关基因及蛋白的表达,为奇壬醇防治骨质疏松症提供理论依据。方法:1.通过RAW264.7细胞系(第2代,购自ATCC,美国)建立破骨细胞诱导