基于大数据的商业智能在电商数据分析中的应用

来源 :电子商务 | 被引量 : 0次 | 上传用户:po689322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为了将大数据与传统商业智能相结合,重新设计了商业智能的架构平台,着重探讨了数据获取方式,以中药饮片企业电商数据为例,用聚类分析中的K-Means算法对消费者进行分群,以此实现对不同消费者进行个性化营销的目的。
  关键词:大数据;商业智能;数据挖掘;聚类分析
  引言
  商业智能(Bl)概念由Gartner Group提出,涉及信息搜索、管理和分析,目的是使企业决策者获得知识,促使他们做出对企业更加有力的决策。商业智能不是一种独立的技术,而是一套完整的解决方案。它将数据仓库,联机分析(OLAP),数据挖掘和可视化等技术结合应用于业务活动,使企业的复杂信息转化为可供辅助的知识,最后将知识呈现给用户,以支持企业决策[1]。
  随着Internet应用程序规模的不断扩大,需要处理的数据量呈指数级增长,数据结构变得越来越复杂。业务运营压力急剧增大,从而直接推动了大数据处理技术的发展[2]。随着电子商务、云计算、移动社交媒体等新一代IT技术的快速发展,传统的Bl系统逐渐不能满足企业数据分析的需求。个性化、数据化、科学的数据分析技术逐渐使传统的Bl系统需要与大数据技术相结合,实现一种满足大数据分析的新平台架构。
  1、基于传统BI体系的大数据应用设计
  在大数据时代,传统BI的数据存储能力、数据分析能力、实时数据处理能力不能胜任非结构化的复杂数据源的应用分析。因此,如何综合利用现有的BI和大数据技术是新平台架构设计的关键。传统的BI数据主要来自内部操作系统和管理系统;大数据的主要来源是互联网,如微博,网页和其他数据交换。在数据源、数据收集、数据处理、数据存储和以后的数据应用程序方面,这两者都有本质上的不同。基于以上考虑,设计了新的架构平台如图1所示。
  数据源主要包括企业的内部数据和外部数据,内部数据由OA系统、ERP系统、财务报表系统等相关结构化数据组成;外部数据包括互联网上的非结构化数据,如超文本,图像和视频。数据采集在原有采集方式中新增了互联网网页爬虫的采集方式。针对结构化和非结构化的数据采用不同的处理方法。非结构化数据整理成结构化数据存储在分布式结构化数据库中;传统数据仍存储在关系型数据库中。大数据主要以分布式文件系统(HDFS)和NoSQL数据库的形式存储。最终数据主要用于联机分析处理,数据挖掘,数据可视化等方面。
  2、数据采集方式
  大数据背景下的数据收集方法主要包括三类:系统日志收集,网络数据收集和数据接口收集。日志数据的采集是通过设备中的日志记录子系统实现的,这个子系统能够在必要的时候生成日志消息。常用的商用数据API都支持REST API的方式获取数据信息。网络数据采集主要采用网络爬虫技术,其核心原则是:使用超文本传输协议HTTP仿真浏览器通过统一资源定位器URL地址访问Web服务器,获取Web服务器的权限,返回到原始页面并解析数据[3]。
  传统的网络爬虫技术可能存在问题,因此为爬取web资源而设计的聚焦爬虫技术应运而生。聚焦爬虫有选择地访问因特网上的与网页相关的链接,以基于已建立的爬行目标(使用某电商销售主题)获得他们所需的信息。聚焦爬虫并不追求网页的全面覆盖,相反,它针对与特定主题相关的网页,并为面向主题的用户查询准备数据资源。
  3、中药饮片企业电商数据应用案例
  3.1中药饮片企业发展状况
  传统中药饮片在生产销售过程中比较混乱,没有统一的质量标准,因此,质量监督管理难度较大。由于中药饮片生产企业已经逐渐全面实施药品GMP认证,其生产已从纯手工加工独立出来成为中药行业的一项产业。也因此中药饮片、中药材、中成药并称为中药的三大组成部分。随着GMP认证的实施,中药饮片生产企业也发生了本质的变化,中药饮片的质量得到了提高,同时取得了良好的社会效益。然而,中药饮片的来源,加工方法和用途均有其传统特征。这一目标特性与GMP要求之间存在很大差异。因此,在实施过程中存在很多问题,特别是2010版的GMP和附录对中药饮片生产的要求达到了前所未有的高度,中药饮片企业的管理面临严峻挑战。
  3.2 K-Means算法
  K均值是一种广泛使用的聚类方法,它将D个实体划分为N个聚类。从而确保集群内的相似性尽可能高,集群之间的相似性尽可能低。K-means算法的过程如下:
  (1)随机选择N个数据点作为質心;
  (2)计算数据集中每个数据点到质心的距离,并将数据集中的所有数据点聚合为N个簇;
  (3)根据第2步计算得到的N组数据点,迭代计算出新的质心:
  (4)重复步骤2-3,直到最终质心与前一个质心之间的距离很小(满足收敛);
  (5)最后读入所有的观察值,将每个观察值按照最接近质心的类别进行分类,分类结束。
  质心和距离是K-MEANS算法的两个基本概念。质心可以被看做是一个样本,或者可以被认为是数据集中的某个数据点A,并规定它是具有相似性的一组数据的中心。质心的选择对聚类结果有很大影响,因为该算法是随机选择任何一个对象作为初始聚类的质心,并且最初表示聚类结果。当然,这个结果通常是不合理的,只是随机划分的数据集。质心的具体校正还需要多轮迭代计算才能逐渐逼近所需的聚类结果:具有相似性的对象被分组为一组,所有这些对象都具有共同的质心。另外,由于初始质心选择的随机性,最终结果不一定是预期的,因此需要多次迭代,在每次迭代时重新随机获得初始质心,直到最终聚类结果满足预期。
  距离实际上是相似度的度量。常见的距离公式计算有:曼哈顿距离,欧几里德距离,闵可夫斯基距离,切比雪夫距离等。聚类分析中最常用的距离公式是欧氏距离,因为欧氏距离直观且容易计算,而且欧式距离对对象的点进行坐标偏移和变化旋转,最后,距离的值保持不变,因此仍然可以通过对象的原始相似性来判断对象相似性。设d(x,y)为对象a和b之间的距离,则d(x,y)应满足以下三个属性:
其他文献
由中宣部、民政部、国家广电总局、中国红十字会、中华慈善总会联合主办、中央电视台承办的“情系玉树大爱无疆”抗震救灾大型募捐活动在北京举行。来自陕西省的30余家国有、
本刊讯 “创先争优”活动开展以来,陕西省非公有制企业根据活动整体部署,结合各自实际情况,分别制定实施细则、成立工作机构,确保非公有制企业“创先争优”活动顺利推进。截至目
SWOT四个英文字母分别代表:优势、劣势、机会、威胁;它是组织内部优势、劣势以及组织外部机会、威胁综合分析的代名词。SWOT分析法用在制定企业的发展战略前对企业进行深入全面
快速蔓延的国际金融危机,加上国内尚未解决的深层次矛盾和问题,使不少专家感到,“今年将是近年来最困难的一年”。前不久召开的中央经济工作会议提出,“要着力在保增长上下功夫,把
据新华社电记者15日从中铁第一勘察设计院获悉,设计时速250公里以上的西(安)一成(都)铁路近日获国家发展和改革委批复,设计通过铁道部审查,标志着中国首条穿越秦岭的高速铁路即将兴
如今,“互联网+”已经成为时代发展的必然潮流。很多行业跟随潮流都往前迈进了一大步,通过与“互联网+”相结合的模式,实现了质的飞跃。目前,线下教育模式在教育模式中仍占着
在互联网技术的东风下,“互联网+教育”应运而生,面对“互联网+”时代给教育带来的这些机遇和挑战,我们需要冷静应对坚持“教育为体、互联网为用”的指导原则,从教育的核心需
移动互联网时代智能手机普及为“翻转课堂”、“混合式学习模式”、“移动学习”提供了极大的便利,但大学生智能手机的过度依赖对大学生课堂学习产生了负面影响。本次研究旨
文章运用技术接受模型研究大学生对废旧手机网络回收平台的接受度。除感知有用性和感知易用性等模型本身的变量,还添加网络回收平台的服务质量、社会影响和便利条件等变量,一
《电子商务》课程的教学目的是以加强学生对电子商务的理解及利用电子商务进行创新创业为主要任务,同时提高学生理论应用以及实际操作的能力。文章在探讨参与式课程设计在《