基于web数据的特定行业用户网络行为分析

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:litian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
web数据含有用户网络访问模式的丰富信息,挖掘web数据对于用户的网络行为分析具有重大意义。本文研究的web数据来源于两部分,一是国内某运营商提供的基于DPI包检测技术获得的网络流数据,主要是用户web日志数据;二是利用网络爬虫程序抓取的网页数据。基于这两种web数据,分析了电商和汽车网站用户的网络行为。(1)电商行业的用户网络行为分析。主要以京东、天猫、国美、苏宁这四个电商网站的用户为研究对象,利用MapReduce基本统计分析方法,分析这四个电商网站的用户对具体商品的访问行为,主要包括对商品的浏览、搜索和加购物车等行为。采用BulkLoad工具将电商用户行为数据批量导入HBase表中,解决了数据逐条导入而频繁IO、GC操作造成的系统响应变慢、节点超时退出等问题,增加了集群系统的稳定性、提高了数据入库效率。最后通过编写HBase数据查询接口,对电商用户的行为数据进行定制化查询,即可根据指定条件对用户行为集中查询和分析。(2)分析汽车行业的用户网络行为。主要以长安福特汽车品牌下的锐界车系为研究样例,使用AprioriAll序列模式挖掘算法得到用户访问汽车网站的频繁序列集,分析对锐界车系感兴趣的用户倾向在哪些汽车网站(排名靠前的15个汽车网站)上获取锐界相关信息,以及对这些网站的访问先后次序又是怎样的;再利用MapReduce统计特性和RESTful API技术对用户的站点访问情况以及兴趣标签等信息进行可视化分析。其中,用到正则表达式提取汽车用户数据,通过RegexBuddy工具调试和优化正则表达式,并结合数据的Hash存储特性,使得数据提取程序的时间复杂度由O(N)降为O(1),提高了程序运行效率。本文的研究结果在一定意义上,能够给特定商品和特定汽车的网络经销商或者广告商在用户群体定位、广告精准投放或交叉推送等方面提供参考意见。
其他文献
高校招生考生学籍档案是考生在高级中等教育阶段的学籍档案以及参加当年普通高等学校招生报名考试所组建的考生纸质材料,它是形成干部人事档案材料的基础,也是用人单位选拔人才
5月19日,云南省档案局黄凤平局长深入禄劝县和富民县档案部门进行调研。黄凤平一行实地视察了两县的库房、查阅室、计算机房,参观了爱国主义教育展室,并分别与两县分管档案工作
3月13日 星期二 晴字增祥,大理州巍山县五印乡白池村委会主任,黝黑的面庞,朴实的穿着,掩饰不住身上隐约透露出的精明。
专利法律法规缺少公知常识的明确定义以及仅从来源角度对公知常识的栽体进行开放式的列举,造成了公知常识认定的随意性及模糊性。以载体来源作为认定公知常识的判断标准是业界
提高电容器在低温下运行的可靠性,关键在于提高电容器用绝缘油的低温耐电性能。本文研究了苄基甲苯(M/DBT)与苯基二甲苯基乙烷(PXE),单苄基甲苯(MBT)与苯基乙苯基乙烷(PEPE)两种掺合绝缘
地处豫西伏牛山下的宝丰县肖旗乡大白庄村是一个普通的小村庄,但这里却是中南财经政法大学师生心中的圣地,该校很多师生纷纷来此寻根。1948年5月,刘、邓首长率部进驻宝丰后。在
目的对11批市售琥珀药材中铅、镉、铬、砷、汞、铜有害元素的含量进行测定,以评价琥珀药材质量。方法采用石墨炉原子吸收分光光度法对铅、镉、铬进行测定,火焰原子吸收分光光
目的研究慢性束缚应激对小鼠学习记忆能力的影响。方法雄性ICR小鼠30只,按体重随机分为3组:正常对照组、束缚模型组和解束缚组。束缚模型组动物采用束缚结合孤养建立慢性应激
针对陕北黄土高原丘陵沟壑区干旱少雨的特点,连续3 a对绿豆进行不同组合覆盖对比试验,对旱作绿豆组合覆盖的土壤水分、温度、养分等对绿豆生长、发育及产量有影响的环境因素
世界品牌的折扣直销模式正加速进入中国市场。最近司已取得上海中融国际商城九层裙楼10年的经营管理权直销中心。上海富客斯实业有限公司首席执行官陆强透露,该公计划在其中开