论文部分内容阅读
随着电子商务的发展,数字营销市场也逐渐扩大,与传统零售业相比,数字营销的最大特点就是一切都可以通过数据化来进行监控和改进。通过监控数据的变化,能够有效地掌握店铺、商品、活动的营销情况。通过分析整体销售情况、用户画像、活动效果等,提炼出有价值的结论,用于辅助运营者更好的进行店铺运营,提高利润。因此,数据分析在电子商务和数字营销领域非常重要。对于需要进行数字营销工作的相关人员来说,包括客户部人员、策划人员、运营人员、设计师、数据分析师等,对数据的使用频率高且频次多。在这样的情况下,出现了无权限查询信息、不同平台需要登录多个账号、平台提供的第三方数据应用未能贴近业务以及未能根据业务进行定制和扩展等问题。针对以上情况,本文以天猫平台为对象,设计并实现了一个基于电商平台的数据分析系统。具体研究内容如下:(1)研究涉及本系统后台数据处理模块相关的技术,包括Selenium工具在动态网页爬虫中的应用;分词方法及分词系统;评论特征提取的方法。(2)介绍系统的需求分析及整体框架,并阐述了系统4大模块的内容:数据获取、数据处理、数据存储和数据呈现。同时介绍了系统前端的功能及页面设计、系统数据库的设计。系统前端是基于B/S架构的,并按照三层架构进行设计,包括数据访问层、业务逻辑层和用户表示层,采用Asp.net+C#实现;数据库采用Sql Server 2012构建;后台模块采用Python及Java实现。(3)结合Selenium工具,实现商品基本信息、素材信息和买家评论信息爬虫,覆盖PC端和Mobile端,Mobile端的爬取是在PC端上模拟进入Mobile端。(4)利用爬虫爬取平台上的品类/品牌/属性信息,以及通过Tamll对商品标题的分词信息,设计了评论领域专用词典构建方法。利用积累的评论,运用分词工具,对评论进行分词、词性标注、词频统计,通过人工归类的手段,构建了通用型的买家关注点模型。(5)实现了买家关注点识别的两种方法,词语匹配模型法和模型匹配评论法。词语匹配模型法的核心是对评论进行分词、标注、特征抽取后,利用抽取的词语与模型中的词语进行匹配及统计。模型匹配评论法的核心是不进行分词,直接利用模型中的词语,匹配评论中是否含有与该词语一致的字串,并进行统计。实验结果证明,在系统当前条件下,两种方法都能够适应跨类别评论的分析,而在算法表现是,模型匹配评论法的有效评论查全率和各个类别的匹配准确率要优于词语匹配模型法。