论文部分内容阅读
随着互联网技术的快速发展,电子商务产业经济也随之增长,网购已成为人们日常生活中司空见惯的场景。然而,在电商行业,由于信息不对称或者大量无用的信息重复,买家总是难以鉴别产品质量,而电商不法商家总是与平台打假部门玩“猫捉老鼠”的游戏,行走在封号与注册的死循环中。同时,一些生产厂家的产品设计总是难以有创新点或创意点早有雷同却未发现,盲目地生产却得不到市场的认可,由此可见,大量的假冒伪劣产品已严重影响了电子商务行业的发展。大数据技术对来自多方面的信息进行处理,充分挖掘商品信息、金融信用、用户个人选择等关联信息,从看似不相关或没联系的数据信息中挖掘出与目标对象有关联的高价值情报。本课题结合本实验室20年来对知识产权的研究和近些年的大数据技术,开发了一个分布式电商商品与专利情报分析平台。将知识产权信息和商品信息进行综合关联,对电商商品进行更加深入挖掘和分析,让生产厂家在事前进行设计分析和行业比对,平台打假部门在事中进行预警分析,买家在购物过程中利用预警结果进行更好地商品分析。本论文的研究工作主要如下:第一:创新性地将电商商品信息和专利信息进行关联,利用大数据算法对商品信息和专利信息关联分析。一方面扩宽了电商商品横向的电商数据的比对,另一方面加深了电商商品和知识产权纵向的数据关联分析,使得数据分析结果更为深入、更为精准。第二:提升了数据处理能力,设计了分布式网络爬虫,设计了高速缓存和搭建了负载均衡数据库集群。在增加平台的数据量同时,保证了数据响应的效率以及利用读写分离和负载均衡技术,拆分数据库表数据,利用双机热备技术,提高了数据库可靠性。第三:设计并实现了对松耦合的不同业务服务进行分布式部署、整合,研究和利用分布式处理技术,把不同业务服务封装成独立业务模块的程序逻辑单元,实现了分布式电商商品与专利情报分析平台。实现系统业务功能的水平伸缩性扩展,提升系统整体的响应速度。本论文按照软件开发生命周期的基本要求了严格进行,开发了分布式电商商品与专利情报分析平台并最终发布上线。该平台实现了电商商品信息和专利信息关联,横向扩展了电商数据对比,纵向加深了电商数据挖掘。同时,利用分布式技术提升系统的运行速度和可靠性,提供了图搜商品、图搜专利、数据分析和预警报告等多项功能,为惠及更多的消费者、生产者和平台打假部门等提供支持,让电商数据发挥更大的商业价值。