基于Flink的用户行为日志统计系统的设计与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:wangxingyu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化程度的提高,数据产生的速度超过以往任何时候,据统计中国网民数量已经达到10.32亿,网民在网络活动中产生了海量的用户行为日志。利用流式技术从这些行为日志中及时挖掘潜在的价值具有重要的实际意义,也是大数据处理的重要研究方向,本文基于Flink流式处理引擎实现了用户行为日志的统计系统。首先文中对基于用户行为日志中资源信息的统计需求进行了详细分析,主要包括提供用户行为日志收集服务,并将收集到的原始数据进行拆分存储以支持批处理与流式处理;通过流式处理计算基于资源的多维度统计信息,其中包括历史累计统计与窗口统计。其次设计实现了系统功能,并解决了流式处理中的两大难题。其中通过Flume设计实现了二层的日志收集与转储系统,日志分别存储到HDFS与Kafka,提供了支持批处理与流式处理的稳定数据来源;借助于Flink的窗口机制实现了对用户行为日志中资源的多维度的历史累计统计与窗口统计,统计结果分别存储于Redis与HBase。针对高并发处理造成的巨大存储压力,本文系统利用Flink“窗口”机制聚合了输入流量,实现了数据产出时效性与存储压力的平衡;通过Redis存储类型的设计,实现了免读的累加运算,大大优化了存储访问压力。针对多源数据流下基于事件时间水位触发不准确的问题,实现了“基于事件时间”分窗,“基于处理时间”的水位机制,此机制在多源数据流下水位产出稳定递增,保证了按事件时间“分窗”数据产出的时效性;通过HBase数据库Rowkey的设计存储了最小粒度窗口数据,实现了延迟到达数据的不丢失,保证了数据的完整性。最后对系统功能设计了测试用例,并对测试结果进行了分析,确保了系统功能符合需求。
其他文献
杂草稻是指在稻田中与栽培稻伴生,既拥有栽培稻的某些特征,同时也具有一些野生稻的特征,与栽培稻和野生稻都有一定相似性的特殊杂草。杂草稻在长期的进化历程中,积累了较多的抗逆性状,对不利环境的抵抗能力较高,同时也积累了比较丰富的遗传多样性。杂草稻与普通栽培稻基因组同源性高,形态和生理生化特性相似性高,人工除草和化学除草剂防除难度很大。由于杂草稻具有穗大粒多等有利性状,也可作为栽培稻遗传改良的重要种质资源
学位
在本研究的前期工作中,分别利用RNA-Seq和Microarray技术进行了华癸中慢生根瘤菌7653R在自生条件以及在根瘤共生状态下的转录组测序,获得了3000多个在自生和共生状态下差异表达的根瘤菌基因。本研究选择上调表达差异倍数为前25的两个基因MCHK_RS31355、MCHK_8170,以及表达差异倍数大于20的相邻两个hub基因MCHK_0866和MCHK_0867,构建了基因突变菌株和互
学位
STEM教育强调跨学科和做中学,在真实的问题情境中进行跨学科的融合和问题解决,STEM教育的教学评价不仅要关注学生创造的结果,还要关注学生体验和实践的学习过程。在这种背景下,本研究将电子档案袋评价引入STEM课程,引导学生收集STEM学习单、学习日志、作品与其他学习证据,并对这些证据开展评价从而了解学生在学习过程中的思考路径与学习效果。本研究首先根据档案袋评价和STEM教育的相关理论对基于档案袋评
学位
近年来,在政府对数字医疗创新的支持下,越来越多的医药企业开启数字化转型之路。医药企业尝试通过数字化手段促进业务发展,创新优化运营,探索挖掘新模式。但深入研究发现,目前绝大多数企业的数字化转型还处于初级阶段,对数字化转型存在着概念不清晰、资金投入不到位以及顶层规划缺失等情况。企业如何进行数字化变革及如何通过数字化变革增强业务人员的专业技能,从而实现数字赋能业务,是一个亟待解决的问题。本文以作者所在企
学位
随着科学技术的发展,OCR识别技术在生产生活中的应用愈发广泛。本文在对仓储物流行业进行深入了解的基础上,研究了大量需要人工处理的单据,以及由此而损失的耗材成本、人工成本、时间成本,主要目标是研发一种基于文字识别的CFS系统。通过采用基于机器学习的文字识别技术,为前台人员提供更高效的数据录入途径并简化单据审核。该系统将自动识别客户所提供的进仓通知、货物信息等图像数据,对其进行有图像处理和分析,最终将
学位
海南常受到灾害性海浪侵袭,灾害性海浪预测是防灾减灾的重要组成部分。台风是海南近海海域灾害性海浪的主要来源,通过机器学习方法,开展台风引起的灾害性海浪预测研究,对海南近海海域的防灾减灾工作有着重要的指导作用。目前国内外在灾害性海浪预测的研究工作主要集中于开发物理数值模型,缺点是运算效率低,时效性差。针对这一实际问题,分析台风对海浪波高的影响,构建海浪波高预测模型,进一步结合实际应用,利用台风离散数据
学位
随着中国经济的快速发展,国内企业的业务规模不断扩大,企业的业务流程复杂度也随之增加。为了适应时代的发展,更多的企业引入工作流技术管理业务流程,在工作流技术中,工作流模型是业务流程流转的基础,工作流模型结构的正确性直接关系到业务流程流转的正确性,如果错误的工作流模型结构投入到企业的生产环境中,将会给企业带来不可估量的损失。因此在业务流程流转前,需要对其工作流模型结构进行验证,确保业务流程以正确的工作
学位
DNA测序技术的发明改变了近现代分子生物学以及生物化学研究的走向,而人类基因组计划作为基因组学上的里程碑,为后续的基因组研究奠定了坚实的基础。与此同时,测序技术的高速发展大大降低了大型基因组测序的成本,这使得近年有更多物种的基因组进行全基因组测序。并且,近些年出现的第三代长测序技术由于在序列通量和读长上的提升进一步加速了基因组测序的速度。其中,牛津纳米孔公司推出的Nanopore测序技术由于其较低
学位
茉莉花为木犀科素馨属常绿灌木,用途广泛,不仅可用于花茶窨制、精油提取、香料制作、盆栽观赏,还具有药用价值。横州市的茉莉花具有花期早、花期长、香气浓郁的特点,享有“中国茉莉之乡”“世界茉莉花都”的美誉。2022年横州市茉莉花(茶)品牌综合价值218.14亿元,是横州市人民的一朵致富花,但茉莉花花期集中在4—10月,将近半年的时间没有茉莉鲜花,严重影响产业的发展。该文从温度、光照、植物激素、水肥等方面
期刊
选修课程具有独特的课程性质:基于学生的关注和兴趣自主选择的学习科目。选修课程作为培养学生综合素质与能力的途径之一,在我国高等教育课程体系中有着十分重要的地位。近十几年来,选修课程逐渐走进基础教育课程结构中,成为中小学教育变革和探索的热点问题。本文的研究问题是:(1)初中数学教师和学生是如何看待数学选修课的,对开设选修课持何种态度?(2)初中阶段数学选修课程应当如何设计?(3)初中阶段数学选修课程应
学位