互联网大数据的多维度特征数据的应用

来源 :中国信息化·学术版 | 被引量 : 0次 | 上传用户:mervin10183
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】随着计算机技术和应用飞速发展,互联网上的数据每年将增长50%,网民数量也成倍的增加,再加之全世界其他各行各业每分每秒都在制造着大量数据。“大数据”的概念逐步被人们所重视,本文提出了一种大数据的多维度特征表示方法(BDDP),并且积极探讨了这种表示方法在互联网中的应用,比如:招聘信息挖掘、移动APP的广泛利用。
  【中图分类号】TP393.4【文献标识码】A【文章编号】1672-5158(2013)07-0117-02
  1、研究背景介绍
  大数据具有信息体量巨大、数据类型繁多、价值密度低,商业价值高、处理速度快的4个“V”特点。[1]大数据的概念一经提出,科学研究者就发现大数据技术的战略意义并不在于对掌握庞大的数据信息而欢欣鼓舞,而在于对这些含有意义的数据进行专业化处理,即提高对数据的“加工处理能力”体现数据的“价值”。本文认同,在大数据时代下,仍将是以数据为中心的SOA模型占领主导地位。故本论文侧重对大数据本身的处理,而并非对其存储等架构技术[2]做过多的探讨。本论文提出了大数据的多维度处理方法,将互联网上的大数据进行整合处理,并对其应用到互联网应用中提出了憧憬和建议。
  2、 大数据的多维表示方法(BDDP)
  2.1 互联网应用中的大数据
  2.1.1 互联网中的大数据定义
  互联网中的大数据目前还没有很明确的定义,本论文特指其是:由互联网产品或者网民产生的大量数据。如:商品信息、商品价格、用户信息(位置、好友信息、生活信息)、 音频、视频、图片、网站管理日志、用户登录日志 、社交网站中的聊天记录、博文等等。[3]
  2.1.2 互联网用户产生大数据的方式
  目前,互联网用户的主要接入媒介分为:PC和手机、智能平板等移动和不可移动终端。[4]加之互联网应用包括:企事业信息门户网站、百度等搜索引擎、新浪等新闻网站、APP应用商城、阿里巴巴等电子商务网站、社交网站、腾讯微博、腾讯微信、移动互联网应用等。因此本论文认为,大数据产生方式有以下:
  1) 新闻、企事业单位网站的每日新闻、政策公布
  2) 博客用户针对新闻事件的讨论、引用
  3) 移动APP用户信息汇总(移动终端触摸行为)
  4) 电子商城用户行为(鼠标点击行为)
  5) 社交网站用户的交流与社交关系
  2.2 BDDP数据建模
  2.2.1 BDDP建模的依据
  互联网大数据的产生方式是可以根据2.1.2中进行划分的,因此能够准确的了解并掌握不同数据的特征与特性。这些数据可以是结构化的、半结构化的、非结构化的。
  但是这些数据的产生都是基于为用户服务产生,并且由于用户不同的参与行为导致数据急剧增加,因此用户行为分析,[5]可以帮助我们进行BDDP数据建模。另一方面,互联网应用供应商性质,也是决定数据性质的一个关键因素。
  2.2.2 BDDP建模算法
  1)以新闻事件为中心的大数据产生模型
  对某一新闻头条为中心的大数据产生进行建模
  第二层微博、微信、QQ推送记录为第二层数据
  第三层各种互联网用户产生的行为记录为
  我们还可以在每一层数据上加入时间维和地点维,这样我们不仅可以检测到该条新闻的传播影响力,而且可以很清晰的查看到该头条新闻在某一时所产生的影响,便于新闻归档,方便以后查阅。
  2)移动互联网APP为中心的大数据产生模型
  对某款新的手机APP为中心的大数据进行建模图2 典型的APP事件流动模式
  根据上图,本论文将APP产品数据记录建立大数据多维特征数据
  第一层数据
  第二层数据
  第三层数据
  同理我们可以在每一层数据上加上时间维和地点维,便可得到特定时刻某个APP产品的用户数量。
  综上所述,以上仅是两种典型的模型,不足以代表所有互联网大数据的产生模式。但是整体看:移动互联网大数据一致可以分为三层、最多四维的特征数据,而最后一层数据通常又是以一个中心向外辐射的特征数据集,由于辐射数据集的复杂性才使得互联网大数据的处理和挖掘变得异常困难。但是上述的大数据的多维度特征数据维度较少,定义精确,可以那个多层次关联规则数据挖掘算法,[6]以较高的效率实现。
  3、 BDDP在互联网中的应用
  移动互联网的发展,离不开用户的支持。现在很多互联网企业都是利用高浏览量来赚取广告费用。掌握大量数据、分析用户消费行为、引导用户消费已然成为目前各大互联网企业的重点研究领域。
  前程无忧,应届生求职网等以发布招聘信息为主的招聘网站,它并不为用户提供任何职位,而是求职者和招聘单位的一个沟通桥梁。通过点击率赚取利润,这是一种典型的以新闻事件为中心的大数据产生模式。
  近期,百度发布了“明星脸”,是一款手机终端的APP[7],目前该APP功能较单一,就是支持用户上传照片,然后识别与用户相似的明星脸。其实这就是第二种大数据产生模式的一个应用。其发布时间是2013年愚人节那天,经过APP为中心的数据产生模式,很快就有了大量用户关注。
  从上述的分析可以知道,很多互联网公司是凭借大量用户、拥有大量数据,靠着模式创新而不是提供产品来获得利润。因此掌握互联网大数据多维特征数据,有利于互联网企业准确定位,建立正确的盈利模式。
  4、 结束语
  参考文献
  [1] 百度百科 大数据词条 http://baike.baidu.com/view/6954399. htm 2013-4-5
  [2] 王珊,王会举,覃雄派,烜周.《架构大数据:挑战、现状与展望》 计算机学报Vol.34 No.10 Oct.2011
  [3] 199IT推荐文章,2012年中国移动互联网发展历程回顾,2013-4- 3
  [4] 刘三德.互联网大数据应用之二:用户行为分析 速途专栏,2012-6-10
  [5] 王璐,唐红.移动互联网用户行为分析,中国知网Vol.11 2012
  [6] 程继华,施鹏飞.多层次关联规则的有效数据挖掘算法 软件学报Vol.9,No.12,Dec.1998
  [7] 百度百科,明星脸词条,http://baike.baidu.com/view/10370916. htm 2013-4-5
其他文献
一位住在加拿大的朋友在微信上贴图:一位白发苍苍的大厦看门人,每天,让每个来访者挑选自己喜欢的糖果。这些彩色的糖果装在十几个排成一列的透明罐子里,每天都放在他的桌子上
2013年5月30-31日,广东省公路学会召开第三次通讯联络员工作会议。广东省公路学会理事长陈冠雄、常务副理事长石国彬及学会各专业委员会通讯联络员30余人参加了会议。广东省
2012年,广东省交通运输系统研究开发的5个科技项目成果荣获中国公路学会科学技术奖。为了更好地推广应用科技成果,互相交流学习,广东省公路学会于2013年5月22日组织召开了“2
病史摘要患儿王××,女,八岁。1980年1月20日入院。入院前二周诉有发热、咳嗽、胸闷,门诊诊断为“上感”,入院当天来门诊注射前突然昏例,神志不清,面色紫绀,即予抢救,瞬即神
随着现代电子信息技术的飞速发展,我国出版业正经历由传统出版向数字出版的重大变革,数字出版产业异军突起。针对国内数字出版业存在的突出问题,应科学整合数字出版产业,优化产业链利益分配;加大数字出版的版权保护力度,鼓励数字出版创新;提高数字出版人才培养水平,提升高端数字产品的输出层次;促进数字出版集群建设,逐步形成有效的盈利模式。
可以为吴小怡贴许多身份标签:百德珠宝品牌创始人、董事长、跨国钻石公司总设计师、时尚名媛、天蝎女神……但是把这些词汇全部叠加,还不足以勾勒一个真实的她。采访的过程中
随着我国加入WTO,经济全球化进程的加快,学习和掌握英语、开展对外交流已经成为对本世纪国民素质的基本要求。作为技校,它的培养目标是工作在第一线的应用型人才,因此,熟练地
【脚本很简单,主角只有她和他】  那次,蓝皙去小广场意外地发现了一个不速之客,陡然间,仿若私人领域被入侵,她皱着眉头驻足在两米外审视敌人,像只动了怒的猫。  那是个男子,有着淡淡的忧郁的表情,如若换个场合相遇,蓝皙真心觉得那是一个可人的男子。只是这片清静之地确实是蓝皙挖掘到的世外桃源,她还没有跟别人分享的打算。  男子在余光中搜索到了蓝皙,转首微笑,算是尽了萍水相逢之谊。那微笑好深邃,忧郁里藏着骄
为使浦东开发开放更好地抓住新机遇,增创新优势,赢得新发展,由对外贸易经济合作部、国家发展计划委员会、国家经济贸易委员会与上海市人民政府共同主办的“上海浦东开发开放战略
患者:女,51岁,行乳腺癌切除术数年后复发。我院严格按照WHO与我国卫生部提出的镇痛三阶梯用药原则,首先口服给药,患者应用美菲康后,出现咳嗽,恶心、呕吐感,疼痛减轻也不很明