【摘 要】
:
随着互联网金融行业的快速发展,众多银行与互联网企业均推出了在线信贷系统。不同于传统的线下信贷,在线信贷业务用户群体庞大且交易频繁,促使信贷系统内业务数据不断累积且实时变更。此类业务数据包含用户多维度信息,具有巨大的商业价值,因此如何对其进行实时处理与分析已成为众多企业的迫切需求。目前传统的数据分析手段无法适用于海量数据场景,而数据仓库、ETL工具等离线处理技术无法满足实时处理的需求。针对海量信贷用
论文部分内容阅读
随着互联网金融行业的快速发展,众多银行与互联网企业均推出了在线信贷系统。不同于传统的线下信贷,在线信贷业务用户群体庞大且交易频繁,促使信贷系统内业务数据不断累积且实时变更。此类业务数据包含用户多维度信息,具有巨大的商业价值,因此如何对其进行实时处理与分析已成为众多企业的迫切需求。目前传统的数据分析手段无法适用于海量数据场景,而数据仓库、ETL工具等离线处理技术无法满足实时处理的需求。针对海量信贷用户数据实时处理的场景,本文基于Hadoop技术研发了一套用户标签系统,主要工作如下:(1)设计信贷业务场景下的用户标签,对用户属性与行为的特征信息进行标签化描述与存储,并在此基础上,依托Storm实时计算与HBase海量数据存储技术,研发支持用户标签构造、校验功能的大数据实时处理系统。此外,本文基于HBase Coprocessor研发标签实时同步功能,标签数据可同步至Elasticsearch搜索引擎并配合Kibana实现数据分析与可视化。(2)为满足异构信贷系统下各类业务接入的需求,本文在提取其公共流程的基础上,针对业务数据收集、清洗以及标签计算环节的差异性,分别提供配置化DBMS/Kafka数据源、“元数据转化”接口以及“可计算标签”抽象类供其拓展,提升系统复用程度与可拓展性。(3)基于Storm消息确认机制设计并实现了业务数据收集、标签计算场景下的消息重试方案,引入Redis分布式悲观锁、基于版本号机制的乐观锁实现了标签构造与校验场景下的并发控制,保证了标签数据处理的可靠性与并发正确性。基于上述关键技术,本文最终实现了海量用户标签数据实时处理系统,并以信贷系统“某贷平台”为案例完成接入。经部署测试,标签构造、校验、可视化等各项功能均正常运行,同时标签构造各功能点可保持较高的实时性与吞吐量;此外,针对数据处理异常、并发处理的场景,用户标签系统仍能保证高可靠与并发正确,达到了系统开发的预期目标。
其他文献
近年来,随着社交网络传媒的飞速发展,越来越多的人习惯使用如微博,twitter,Facabook以及各大论坛作为针对各类事件发表看法、态度和言论的窗口与平台。在不同的平台上,每分每秒都有数以亿计的文本信息发布,各类突发事件及热点新闻在这些平台上的传播速度大大快过传统媒体,那么,如何能够快速对这些文本进行挖掘分析,实时地从中找出当前热点,成为了一个十分有价值的研究方向。本文主要针对社交网络传媒中用户
随着互联网技术的高速发展,网络媒体逐渐走进大众的日常生活,为人们获取新闻、开拓视野提供极大的便利。新媒体时代下,网络新闻呈现出碎片化、海量化等特点,造成内容分散、信息冗余等问题。新闻聚合首先对海量多源新闻信息进行精简提炼,并在话题等层面实现新闻的关联整合,然后对内在关联的新闻进行统一组织与高效呈现,实现新闻的有序治理。为了达到上述目的,主要面临以下三个挑战:第一,新闻标题是新闻内容的精简概述,然而
伴随着现代计算应用的普及和泛计算社会的到来,程序设计逐渐成为一种大众化技能。语言作为程序设计的基本要素之一,其机制和表现形态直接影响学习者对程序设计本身的认知及应用效率。现有程序描述语言普遍呈现专业特色,具有高阶的认知特征,制约了普通学习者的学习热情和效率。因此,针对新的应用需求,程序描述语言的发展应考虑如何通过编程语言和编程工具有效降低使用者进行程序设计的认知负荷,与此同时如何让使用者获得良好的
在气象科学领域,大气波导对电磁波的传播有着重要影响。大气波导会增大雷达杂波、引起超视距传播甚至导致无线电通信信号中断等问题。大气波导反演问题是一个复杂的非线性问题,不存在解析解。对大气波导反演问题,可以建模为一个多目标优化问题。一般可使用传统数学优化算法和进化多目标优化等方法进行求解大气波导的剖面结构和传播特性,进而对大气波导的正向传播进行建模,从而模拟大气波导的正演过程。另一方面,大气波导中的蒸
实现计算机执行临床路径是医疗智能化建设的重要内容,是提高诊疗质量、可靠性的重要手段。研究表明回答集逻辑程序(Answer Set Programming,ASP)在临床路径的编码和执行方面具有表达力强、推理能力强的优势,然而对路径文档中通常以大量文字描述为主的诊疗标准也还存在着编码难、不确定性知识处理难的问题。为此,本文研究基于ASP的诊断路径表示和推理,聚焦于基于ASP的诊断标准表示和推理。头痛
自2017年第一款现象级区块链游戏“加密猫”出现后,区块链游戏行业迎来了蓬勃发展。区块链游戏通常会发行非同质化代币(Non-fungible token,NFT)作为虚拟道具,并以道具创造和交易为核心玩法。然而,由于设计方案不够成熟,现有区块链游戏的用户体验欠佳。同时,虚拟道具价格缺乏基准,游戏内易产生投机活动。这些问题不利于区块链游戏行业的可持续性发展。针对上述问题,本文将发行在以太坊上的ERC
命名实体识别在自然语言处理领域中具有重要意义,目前主要采用深度学习的方法,如BiLSTM-CRF模型。虽然该模型中的BiLSTM结构可以捕获句子中双向较长距离依赖,但存在以下问题:1)文档级标签一致性指文档中某一特定单词序列的不同出现往往具有相同的实体类别,它是命名实体识别的有效指示,而BiLSTM-CRF模型仅针对句子进行序列标注操作,对文档级标签一致性的利用不够充分;2)仅通过简单地调整超参数