基于大数据平台的电信用户行为日志分析研究

来源 :成都理工大学 | 被引量 : 6次 | 上传用户:whywxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术不断快速深入发展,许多大型企业、机构及政府部门持续获得了各种海量Web日志数据,而Web日志中记录了用户的行为及具体的消费情况,对网站的建设及特定商品的推广并提供精确的服务具有非常重要的指导意义。当今对Web日志分析的要求是持续变化和增加的,同时在分析Web日志时也要求具有一定的快捷性和准确性,然而如何预处理海量日志,如何存储海量数据,如何获取有效的信息成为学术界和商业界重点研究的内容。现今,人们的生活离不开网络,而生活中的各种需求基本上都是通过访问网站来实现,因此各个企业为了获得用户的显性需求和隐性需求,深入挖掘用户的网络行为习惯已形成一门重点关注的学科。因为访问网站的用户越来越多,所产生的数据也迅速增长,如何预处理和存储海量数据,并从中获取有效的数据成为了另一个挑战。根据人们的研究成果,目前基于Hadoop的相关技术是解决大数据问题最适合的方法和工具。原始Web日志中的数据是不一致的、缺陷的、含有大量脏数据和噪声,假如不通过数据采集和预处理过程对其进行过滤和筛选,会使数据分析阶段的工作量增大,甚至可能造成错误的结果。所以,在对数据进行分析之前应先对Web日志实行采集和预处理操作。每天电信系统都会产生海量的Web日志数据,单节点数据处理和传统的关系型数据库已不能满足其需求,对于怎样存储海量电信数据成为必要的研究课题。Web日志的挖掘需要通过算法来实现,因此算法的选取和设计也是关键之处。本文对基于电信系统的Web日志进行研究,其内容主要包含以下几点:1)Web日志的采集预处理Web日志采集和预处理是Web日志挖掘的前提条件,其作用是为后续数据分析提供准确的日志文件。而原有的Web日志中存在大量噪声和不一致的信息,因此对其进行采集和预处理操作是很有必要的。然而,随着用户访问数量的急剧增长,大量高并发的数据给Web预处理操作带来了巨大的挑战。本文提出了一种基于MapReduce的Web日志预处理机制,能更好的提高日志数据采集预处理阶段的效率,并最大限度的利用计算机硬件资源,从而降低不必要的资源浪费。2)Web日志的数据存储由于电信用户和网站的访问量在不断增加,Web日志也在每日剧增,传统的数据存储技术存在成本高、运行繁杂、扩展性极低等诸多不足。本文将采用HDFS和Hbase的组合来实现,并充分利用Hadoop集群的分布式存储优势。3)电信系统日志挖掘及聚类算法的改进数据挖掘作为大数据技术的核心问题之一,面临着计算复杂度高和计算能力不足等问题,本系统中应用了一种基于Hadoop的分布式改进聚类算法即CFK-means聚类算法。本算法是对K-means聚类算法的一种改进,本文通过实验结果阐明该聚类算法具有良好的可移植性和准确性。本文通过搭建一个模拟电信系统日志分析大数据平台,验证MapReduce并行化在Web日志采集和预处理阶段的高效性,HDFS和Hbase组合在数据存储中的高扩展性,通过多次对比实验结果分析,验证本文中CFK-means聚类算法的准确性和快捷性。本文通过对电信系统的日志分析,挖掘出用户的行为信息,通过分析用户访问网站的行为特点,帮助电信运营商制定合理的套餐和推荐信息。
其他文献
近年来。成都食品行业开始走入公众的视野。引起各大媒体和社会的关注。“成都造”、“成都食品势力”这样的新概念开始频繁出现。行业内的交流增多。一些活跃的食品企业在品
就食品消费的潮流而言,操盘的是消费者的意识,及其意识所决定的消费习惯的改变,其改变的轨迹如何,绝对不是哥德巴赫猜想,因为它有一个最直接、最客观的体现就是食品销售状况的变化
目的观察血管紧张素Ⅱ1型受体拮抗剂氯沙坦对载脂蛋白E基因缺陷小鼠主动脉粥样硬化病变形成的影响。方法27只雄性载脂蛋白E基因缺陷小鼠随机分成3组,每组9只:对照组、氯沙坦低
9月3日,北大仓集团举行建厂95周年庆典。黑龙江省委、哈尔滨市委领导到场祝贺,白酒专家沈怡方、高景炎、高月明、栗永清及经销商和供应商等近千人参加了大会。中国酿酒工业协会
目的 通过将携带人CD151基因的重组腺病毒相关病毒(rAAV)载体注入缺血心肌,观察CD151基因对缺血心肌血管密度的影响。方法 结扎冠状动脉前降支制作大鼠急性心肌梗死模型,将rAAV—
基础医学如不围绕国家重大疾病防治战略需求开展多学科横向联系,很难取得长足发展。本文简要总结了我们通过“四个结合”(基础与临床结合、医学与理工结合、中西医结合、自力更
西北地区的出土文物、现存壁画、文献资料及历代著录,对于我们考察古代人们的娱乐形式及业余生活爱好,都有着特定的价值和意义。西北地区现存及已经出土的具有代表性的博具、
目的:观察尼氟灭酸(niflumic acid,NFA)对大鼠心室肌细胞钠电流及动作电位的影响.方法:分别用全细胞膜片钳及电流钳技术记录单个心室肌细胞电压门控钠电流(INa)和动作电位(AP
目的:利用慢性间断快速刺激左心房的方法,建立山羊持续性心房颤动(房颤)模型.方法:在10只山羊的左心房游离壁缝合电极条,在左上肺静脉根部缝合1对电极.将左房的1对电极在体外