论文部分内容阅读
【摘 要】随着计算机技术和应用飞速发展,互联网上的数据每年将增长50%,网民数量也成倍的增加,再加之全世界其他各行各业每分每秒都在制造着大量数据。“大数据”的概念逐步被人们所重视,本文提出了一种大数据的多维度特征表示方法(BDDP),并且积极探讨了这种表示方法在互联网中的应用,比如:招聘信息挖掘、移动APP的广泛利用。
【中图分类号】TP393.4【文献标识码】A【文章编号】1672-5158(2013)07-0117-02
1、研究背景介绍
大数据具有信息体量巨大、数据类型繁多、价值密度低,商业价值高、处理速度快的4个“V”特点。[1]大数据的概念一经提出,科学研究者就发现大数据技术的战略意义并不在于对掌握庞大的数据信息而欢欣鼓舞,而在于对这些含有意义的数据进行专业化处理,即提高对数据的“加工处理能力”体现数据的“价值”。本文认同,在大数据时代下,仍将是以数据为中心的SOA模型占领主导地位。故本论文侧重对大数据本身的处理,而并非对其存储等架构技术[2]做过多的探讨。本论文提出了大数据的多维度处理方法,将互联网上的大数据进行整合处理,并对其应用到互联网应用中提出了憧憬和建议。
2、 大数据的多维表示方法(BDDP)
2.1 互联网应用中的大数据
2.1.1 互联网中的大数据定义
互联网中的大数据目前还没有很明确的定义,本论文特指其是:由互联网产品或者网民产生的大量数据。如:商品信息、商品价格、用户信息(位置、好友信息、生活信息)、 音频、视频、图片、网站管理日志、用户登录日志 、社交网站中的聊天记录、博文等等。[3]
2.1.2 互联网用户产生大数据的方式
目前,互联网用户的主要接入媒介分为:PC和手机、智能平板等移动和不可移动终端。[4]加之互联网应用包括:企事业信息门户网站、百度等搜索引擎、新浪等新闻网站、APP应用商城、阿里巴巴等电子商务网站、社交网站、腾讯微博、腾讯微信、移动互联网应用等。因此本论文认为,大数据产生方式有以下:
1) 新闻、企事业单位网站的每日新闻、政策公布
2) 博客用户针对新闻事件的讨论、引用
3) 移动APP用户信息汇总(移动终端触摸行为)
4) 电子商城用户行为(鼠标点击行为)
5) 社交网站用户的交流与社交关系
2.2 BDDP数据建模
2.2.1 BDDP建模的依据
互联网大数据的产生方式是可以根据2.1.2中进行划分的,因此能够准确的了解并掌握不同数据的特征与特性。这些数据可以是结构化的、半结构化的、非结构化的。
但是这些数据的产生都是基于为用户服务产生,并且由于用户不同的参与行为导致数据急剧增加,因此用户行为分析,[5]可以帮助我们进行BDDP数据建模。另一方面,互联网应用供应商性质,也是决定数据性质的一个关键因素。
2.2.2 BDDP建模算法
1)以新闻事件为中心的大数据产生模型
对某一新闻头条为中心的大数据产生进行建模
第二层微博、微信、QQ推送记录为第二层数据
第三层各种互联网用户产生的行为记录为
我们还可以在每一层数据上加入时间维和地点维,这样我们不仅可以检测到该条新闻的传播影响力,而且可以很清晰的查看到该头条新闻在某一时所产生的影响,便于新闻归档,方便以后查阅。
2)移动互联网APP为中心的大数据产生模型
对某款新的手机APP为中心的大数据进行建模图2 典型的APP事件流动模式
根据上图,本论文将APP产品数据记录建立大数据多维特征数据
第一层数据
第二层数据
第三层数据
同理我们可以在每一层数据上加上时间维和地点维,便可得到特定时刻某个APP产品的用户数量。
综上所述,以上仅是两种典型的模型,不足以代表所有互联网大数据的产生模式。但是整体看:移动互联网大数据一致可以分为三层、最多四维的特征数据,而最后一层数据通常又是以一个中心向外辐射的特征数据集,由于辐射数据集的复杂性才使得互联网大数据的处理和挖掘变得异常困难。但是上述的大数据的多维度特征数据维度较少,定义精确,可以那个多层次关联规则数据挖掘算法,[6]以较高的效率实现。
3、 BDDP在互联网中的应用
移动互联网的发展,离不开用户的支持。现在很多互联网企业都是利用高浏览量来赚取广告费用。掌握大量数据、分析用户消费行为、引导用户消费已然成为目前各大互联网企业的重点研究领域。
前程无忧,应届生求职网等以发布招聘信息为主的招聘网站,它并不为用户提供任何职位,而是求职者和招聘单位的一个沟通桥梁。通过点击率赚取利润,这是一种典型的以新闻事件为中心的大数据产生模式。
近期,百度发布了“明星脸”,是一款手机终端的APP[7],目前该APP功能较单一,就是支持用户上传照片,然后识别与用户相似的明星脸。其实这就是第二种大数据产生模式的一个应用。其发布时间是2013年愚人节那天,经过APP为中心的数据产生模式,很快就有了大量用户关注。
从上述的分析可以知道,很多互联网公司是凭借大量用户、拥有大量数据,靠着模式创新而不是提供产品来获得利润。因此掌握互联网大数据多维特征数据,有利于互联网企业准确定位,建立正确的盈利模式。
4、 结束语
参考文献
[1] 百度百科 大数据词条 http://baike.baidu.com/view/6954399. htm 2013-4-5
[2] 王珊,王会举,覃雄派,烜周.《架构大数据:挑战、现状与展望》 计算机学报Vol.34 No.10 Oct.2011
[3] 199IT推荐文章,2012年中国移动互联网发展历程回顾,2013-4- 3
[4] 刘三德.互联网大数据应用之二:用户行为分析 速途专栏,2012-6-10
[5] 王璐,唐红.移动互联网用户行为分析,中国知网Vol.11 2012
[6] 程继华,施鹏飞.多层次关联规则的有效数据挖掘算法 软件学报Vol.9,No.12,Dec.1998
[7] 百度百科,明星脸词条,http://baike.baidu.com/view/10370916. htm 2013-4-5
【中图分类号】TP393.4【文献标识码】A【文章编号】1672-5158(2013)07-0117-02
1、研究背景介绍
大数据具有信息体量巨大、数据类型繁多、价值密度低,商业价值高、处理速度快的4个“V”特点。[1]大数据的概念一经提出,科学研究者就发现大数据技术的战略意义并不在于对掌握庞大的数据信息而欢欣鼓舞,而在于对这些含有意义的数据进行专业化处理,即提高对数据的“加工处理能力”体现数据的“价值”。本文认同,在大数据时代下,仍将是以数据为中心的SOA模型占领主导地位。故本论文侧重对大数据本身的处理,而并非对其存储等架构技术[2]做过多的探讨。本论文提出了大数据的多维度处理方法,将互联网上的大数据进行整合处理,并对其应用到互联网应用中提出了憧憬和建议。
2、 大数据的多维表示方法(BDDP)
2.1 互联网应用中的大数据
2.1.1 互联网中的大数据定义
互联网中的大数据目前还没有很明确的定义,本论文特指其是:由互联网产品或者网民产生的大量数据。如:商品信息、商品价格、用户信息(位置、好友信息、生活信息)、 音频、视频、图片、网站管理日志、用户登录日志 、社交网站中的聊天记录、博文等等。[3]
2.1.2 互联网用户产生大数据的方式
目前,互联网用户的主要接入媒介分为:PC和手机、智能平板等移动和不可移动终端。[4]加之互联网应用包括:企事业信息门户网站、百度等搜索引擎、新浪等新闻网站、APP应用商城、阿里巴巴等电子商务网站、社交网站、腾讯微博、腾讯微信、移动互联网应用等。因此本论文认为,大数据产生方式有以下:
1) 新闻、企事业单位网站的每日新闻、政策公布
2) 博客用户针对新闻事件的讨论、引用
3) 移动APP用户信息汇总(移动终端触摸行为)
4) 电子商城用户行为(鼠标点击行为)
5) 社交网站用户的交流与社交关系
2.2 BDDP数据建模
2.2.1 BDDP建模的依据
互联网大数据的产生方式是可以根据2.1.2中进行划分的,因此能够准确的了解并掌握不同数据的特征与特性。这些数据可以是结构化的、半结构化的、非结构化的。
但是这些数据的产生都是基于为用户服务产生,并且由于用户不同的参与行为导致数据急剧增加,因此用户行为分析,[5]可以帮助我们进行BDDP数据建模。另一方面,互联网应用供应商性质,也是决定数据性质的一个关键因素。
2.2.2 BDDP建模算法
1)以新闻事件为中心的大数据产生模型
对某一新闻头条为中心的大数据产生进行建模
第二层微博、微信、QQ推送记录为第二层数据
第三层各种互联网用户产生的行为记录为
我们还可以在每一层数据上加入时间维
2)移动互联网APP为中心的大数据产生模型
对某款新的手机APP为中心的大数据进行建模图2 典型的APP事件流动模式
根据上图,本论文将APP产品数据记录建立大数据多维特征数据
第一层数据
第二层数据
第三层数据
同理我们可以在每一层数据上加上时间维
综上所述,以上仅是两种典型的模型,不足以代表所有互联网大数据的产生模式。但是整体看:移动互联网大数据一致可以分为三层、最多四维的特征数据,而最后一层数据通常又是以一个中心向外辐射的特征数据集,由于辐射数据集的复杂性才使得互联网大数据的处理和挖掘变得异常困难。但是上述的大数据的多维度特征数据维度较少,定义精确,可以那个多层次关联规则数据挖掘算法,[6]以较高的效率实现。
3、 BDDP在互联网中的应用
移动互联网的发展,离不开用户的支持。现在很多互联网企业都是利用高浏览量来赚取广告费用。掌握大量数据、分析用户消费行为、引导用户消费已然成为目前各大互联网企业的重点研究领域。
前程无忧,应届生求职网等以发布招聘信息为主的招聘网站,它并不为用户提供任何职位,而是求职者和招聘单位的一个沟通桥梁。通过点击率赚取利润,这是一种典型的以新闻事件为中心的大数据产生模式。
近期,百度发布了“明星脸”,是一款手机终端的APP[7],目前该APP功能较单一,就是支持用户上传照片,然后识别与用户相似的明星脸。其实这就是第二种大数据产生模式的一个应用。其发布时间是2013年愚人节那天,经过APP为中心的数据产生模式,很快就有了大量用户关注。
从上述的分析可以知道,很多互联网公司是凭借大量用户、拥有大量数据,靠着模式创新而不是提供产品来获得利润。因此掌握互联网大数据多维特征数据,有利于互联网企业准确定位,建立正确的盈利模式。
4、 结束语
参考文献
[1] 百度百科 大数据词条 http://baike.baidu.com/view/6954399. htm 2013-4-5
[2] 王珊,王会举,覃雄派,烜周.《架构大数据:挑战、现状与展望》 计算机学报Vol.34 No.10 Oct.2011
[3] 199IT推荐文章,2012年中国移动互联网发展历程回顾,2013-4- 3
[4] 刘三德.互联网大数据应用之二:用户行为分析 速途专栏,2012-6-10
[5] 王璐,唐红.移动互联网用户行为分析,中国知网Vol.11 2012
[6] 程继华,施鹏飞.多层次关联规则的有效数据挖掘算法 软件学报Vol.9,No.12,Dec.1998
[7] 百度百科,明星脸词条,http://baike.baidu.com/view/10370916. htm 2013-4-5