论文部分内容阅读
摘要:为了将大数据与传统商业智能相结合,重新设计了商业智能的架构平台,着重探讨了数据获取方式,以中药饮片企业电商数据为例,用聚类分析中的K-Means算法对消费者进行分群,以此实现对不同消费者进行个性化营销的目的。
关键词:大数据;商业智能;数据挖掘;聚类分析
引言
商业智能(Bl)概念由Gartner Group提出,涉及信息搜索、管理和分析,目的是使企业决策者获得知识,促使他们做出对企业更加有力的决策。商业智能不是一种独立的技术,而是一套完整的解决方案。它将数据仓库,联机分析(OLAP),数据挖掘和可视化等技术结合应用于业务活动,使企业的复杂信息转化为可供辅助的知识,最后将知识呈现给用户,以支持企业决策[1]。
随着Internet应用程序规模的不断扩大,需要处理的数据量呈指数级增长,数据结构变得越来越复杂。业务运营压力急剧增大,从而直接推动了大数据处理技术的发展[2]。随着电子商务、云计算、移动社交媒体等新一代IT技术的快速发展,传统的Bl系统逐渐不能满足企业数据分析的需求。个性化、数据化、科学的数据分析技术逐渐使传统的Bl系统需要与大数据技术相结合,实现一种满足大数据分析的新平台架构。
1、基于传统BI体系的大数据应用设计
在大数据时代,传统BI的数据存储能力、数据分析能力、实时数据处理能力不能胜任非结构化的复杂数据源的应用分析。因此,如何综合利用现有的BI和大数据技术是新平台架构设计的关键。传统的BI数据主要来自内部操作系统和管理系统;大数据的主要来源是互联网,如微博,网页和其他数据交换。在数据源、数据收集、数据处理、数据存储和以后的数据应用程序方面,这两者都有本质上的不同。基于以上考虑,设计了新的架构平台如图1所示。
数据源主要包括企业的内部数据和外部数据,内部数据由OA系统、ERP系统、财务报表系统等相关结构化数据组成;外部数据包括互联网上的非结构化数据,如超文本,图像和视频。数据采集在原有采集方式中新增了互联网网页爬虫的采集方式。针对结构化和非结构化的数据采用不同的处理方法。非结构化数据整理成结构化数据存储在分布式结构化数据库中;传统数据仍存储在关系型数据库中。大数据主要以分布式文件系统(HDFS)和NoSQL数据库的形式存储。最终数据主要用于联机分析处理,数据挖掘,数据可视化等方面。
2、数据采集方式
大数据背景下的数据收集方法主要包括三类:系统日志收集,网络数据收集和数据接口收集。日志数据的采集是通过设备中的日志记录子系统实现的,这个子系统能够在必要的时候生成日志消息。常用的商用数据API都支持REST API的方式获取数据信息。网络数据采集主要采用网络爬虫技术,其核心原则是:使用超文本传输协议HTTP仿真浏览器通过统一资源定位器URL地址访问Web服务器,获取Web服务器的权限,返回到原始页面并解析数据[3]。
传统的网络爬虫技术可能存在问题,因此为爬取web资源而设计的聚焦爬虫技术应运而生。聚焦爬虫有选择地访问因特网上的与网页相关的链接,以基于已建立的爬行目标(使用某电商销售主题)获得他们所需的信息。聚焦爬虫并不追求网页的全面覆盖,相反,它针对与特定主题相关的网页,并为面向主题的用户查询准备数据资源。
3、中药饮片企业电商数据应用案例
3.1中药饮片企业发展状况
传统中药饮片在生产销售过程中比较混乱,没有统一的质量标准,因此,质量监督管理难度较大。由于中药饮片生产企业已经逐渐全面实施药品GMP认证,其生产已从纯手工加工独立出来成为中药行业的一项产业。也因此中药饮片、中药材、中成药并称为中药的三大组成部分。随着GMP认证的实施,中药饮片生产企业也发生了本质的变化,中药饮片的质量得到了提高,同时取得了良好的社会效益。然而,中药饮片的来源,加工方法和用途均有其传统特征。这一目标特性与GMP要求之间存在很大差异。因此,在实施过程中存在很多问题,特别是2010版的GMP和附录对中药饮片生产的要求达到了前所未有的高度,中药饮片企业的管理面临严峻挑战。
3.2 K-Means算法
K均值是一种广泛使用的聚类方法,它将D个实体划分为N个聚类。从而确保集群内的相似性尽可能高,集群之间的相似性尽可能低。K-means算法的过程如下:
(1)随机选择N个数据点作为質心;
(2)计算数据集中每个数据点到质心的距离,并将数据集中的所有数据点聚合为N个簇;
(3)根据第2步计算得到的N组数据点,迭代计算出新的质心:
(4)重复步骤2-3,直到最终质心与前一个质心之间的距离很小(满足收敛);
(5)最后读入所有的观察值,将每个观察值按照最接近质心的类别进行分类,分类结束。
质心和距离是K-MEANS算法的两个基本概念。质心可以被看做是一个样本,或者可以被认为是数据集中的某个数据点A,并规定它是具有相似性的一组数据的中心。质心的选择对聚类结果有很大影响,因为该算法是随机选择任何一个对象作为初始聚类的质心,并且最初表示聚类结果。当然,这个结果通常是不合理的,只是随机划分的数据集。质心的具体校正还需要多轮迭代计算才能逐渐逼近所需的聚类结果:具有相似性的对象被分组为一组,所有这些对象都具有共同的质心。另外,由于初始质心选择的随机性,最终结果不一定是预期的,因此需要多次迭代,在每次迭代时重新随机获得初始质心,直到最终聚类结果满足预期。
距离实际上是相似度的度量。常见的距离公式计算有:曼哈顿距离,欧几里德距离,闵可夫斯基距离,切比雪夫距离等。聚类分析中最常用的距离公式是欧氏距离,因为欧氏距离直观且容易计算,而且欧式距离对对象的点进行坐标偏移和变化旋转,最后,距离的值保持不变,因此仍然可以通过对象的原始相似性来判断对象相似性。设d(x,y)为对象a和b之间的距离,则d(x,y)应满足以下三个属性:
关键词:大数据;商业智能;数据挖掘;聚类分析
引言
商业智能(Bl)概念由Gartner Group提出,涉及信息搜索、管理和分析,目的是使企业决策者获得知识,促使他们做出对企业更加有力的决策。商业智能不是一种独立的技术,而是一套完整的解决方案。它将数据仓库,联机分析(OLAP),数据挖掘和可视化等技术结合应用于业务活动,使企业的复杂信息转化为可供辅助的知识,最后将知识呈现给用户,以支持企业决策[1]。
随着Internet应用程序规模的不断扩大,需要处理的数据量呈指数级增长,数据结构变得越来越复杂。业务运营压力急剧增大,从而直接推动了大数据处理技术的发展[2]。随着电子商务、云计算、移动社交媒体等新一代IT技术的快速发展,传统的Bl系统逐渐不能满足企业数据分析的需求。个性化、数据化、科学的数据分析技术逐渐使传统的Bl系统需要与大数据技术相结合,实现一种满足大数据分析的新平台架构。
1、基于传统BI体系的大数据应用设计
在大数据时代,传统BI的数据存储能力、数据分析能力、实时数据处理能力不能胜任非结构化的复杂数据源的应用分析。因此,如何综合利用现有的BI和大数据技术是新平台架构设计的关键。传统的BI数据主要来自内部操作系统和管理系统;大数据的主要来源是互联网,如微博,网页和其他数据交换。在数据源、数据收集、数据处理、数据存储和以后的数据应用程序方面,这两者都有本质上的不同。基于以上考虑,设计了新的架构平台如图1所示。
数据源主要包括企业的内部数据和外部数据,内部数据由OA系统、ERP系统、财务报表系统等相关结构化数据组成;外部数据包括互联网上的非结构化数据,如超文本,图像和视频。数据采集在原有采集方式中新增了互联网网页爬虫的采集方式。针对结构化和非结构化的数据采用不同的处理方法。非结构化数据整理成结构化数据存储在分布式结构化数据库中;传统数据仍存储在关系型数据库中。大数据主要以分布式文件系统(HDFS)和NoSQL数据库的形式存储。最终数据主要用于联机分析处理,数据挖掘,数据可视化等方面。
2、数据采集方式
大数据背景下的数据收集方法主要包括三类:系统日志收集,网络数据收集和数据接口收集。日志数据的采集是通过设备中的日志记录子系统实现的,这个子系统能够在必要的时候生成日志消息。常用的商用数据API都支持REST API的方式获取数据信息。网络数据采集主要采用网络爬虫技术,其核心原则是:使用超文本传输协议HTTP仿真浏览器通过统一资源定位器URL地址访问Web服务器,获取Web服务器的权限,返回到原始页面并解析数据[3]。
传统的网络爬虫技术可能存在问题,因此为爬取web资源而设计的聚焦爬虫技术应运而生。聚焦爬虫有选择地访问因特网上的与网页相关的链接,以基于已建立的爬行目标(使用某电商销售主题)获得他们所需的信息。聚焦爬虫并不追求网页的全面覆盖,相反,它针对与特定主题相关的网页,并为面向主题的用户查询准备数据资源。
3、中药饮片企业电商数据应用案例
3.1中药饮片企业发展状况
传统中药饮片在生产销售过程中比较混乱,没有统一的质量标准,因此,质量监督管理难度较大。由于中药饮片生产企业已经逐渐全面实施药品GMP认证,其生产已从纯手工加工独立出来成为中药行业的一项产业。也因此中药饮片、中药材、中成药并称为中药的三大组成部分。随着GMP认证的实施,中药饮片生产企业也发生了本质的变化,中药饮片的质量得到了提高,同时取得了良好的社会效益。然而,中药饮片的来源,加工方法和用途均有其传统特征。这一目标特性与GMP要求之间存在很大差异。因此,在实施过程中存在很多问题,特别是2010版的GMP和附录对中药饮片生产的要求达到了前所未有的高度,中药饮片企业的管理面临严峻挑战。
3.2 K-Means算法
K均值是一种广泛使用的聚类方法,它将D个实体划分为N个聚类。从而确保集群内的相似性尽可能高,集群之间的相似性尽可能低。K-means算法的过程如下:
(1)随机选择N个数据点作为質心;
(2)计算数据集中每个数据点到质心的距离,并将数据集中的所有数据点聚合为N个簇;
(3)根据第2步计算得到的N组数据点,迭代计算出新的质心:
(4)重复步骤2-3,直到最终质心与前一个质心之间的距离很小(满足收敛);
(5)最后读入所有的观察值,将每个观察值按照最接近质心的类别进行分类,分类结束。
质心和距离是K-MEANS算法的两个基本概念。质心可以被看做是一个样本,或者可以被认为是数据集中的某个数据点A,并规定它是具有相似性的一组数据的中心。质心的选择对聚类结果有很大影响,因为该算法是随机选择任何一个对象作为初始聚类的质心,并且最初表示聚类结果。当然,这个结果通常是不合理的,只是随机划分的数据集。质心的具体校正还需要多轮迭代计算才能逐渐逼近所需的聚类结果:具有相似性的对象被分组为一组,所有这些对象都具有共同的质心。另外,由于初始质心选择的随机性,最终结果不一定是预期的,因此需要多次迭代,在每次迭代时重新随机获得初始质心,直到最终聚类结果满足预期。
距离实际上是相似度的度量。常见的距离公式计算有:曼哈顿距离,欧几里德距离,闵可夫斯基距离,切比雪夫距离等。聚类分析中最常用的距离公式是欧氏距离,因为欧氏距离直观且容易计算,而且欧式距离对对象的点进行坐标偏移和变化旋转,最后,距离的值保持不变,因此仍然可以通过对象的原始相似性来判断对象相似性。设d(x,y)为对象a和b之间的距离,则d(x,y)应满足以下三个属性: