基于大数据的行业短信分析系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hhrs918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行业短信覆盖各大行业,内容包括产品推广、活动通知等多种形式,已成为企业进行商业活动的重要方式之一。短信服务商通过接口向企业客户提供短信收发服务,所有经由平台发送的短信会被存储记录下来,每月的数据量可以达到百万级别。对于短信服务提供商,历史累积短信会占用大量存储空间,但数据资产利用率低,公司缺乏快速、有效、深入的分析手段,无法掌握业务情况。此外,对于诈骗类、涉政类、反动类等具有一定风险的短信,公司缺乏有效的风险排查手段。另外,业务人员需要频繁从历史累积短信中,通过查询、统计、号码匹配方式,提取数据用于制作业务报表。最后,利用数据挖掘技术可从短信数据中提取大量用户相关信息,通过建立用户画像,开展例如精准营销、内容推荐、有偿信息咨询等新业务,实现数据的二次利用。因此,对于短信公司,一个能处理大量数据的行业短信分析系统就显得十分重要。本文首先对行业短信分析系统的研究背景进行介绍。之后对数据挖掘技术在文本分析领域的应用以及大数据技术在国内外企业中的使用现状进行介绍。然后,详细介绍了本系统所用到的文本聚类、文本分类、分布式存储、并行计算等技术。具体包括文本预处理工具Jieba 和 TF-IDF、DBSCAN 算法、集成学习 XGBoost 算法、Hadoop 和Spark大数据处理框架。其次,本文根据短信公司业务背景,分析用户需求,将需求转化成功能描述,确定用户角色和非功能需求。之后,根据需求分析结果,对系统进行整体设计,确定技术实现方案,并对每个功能实现流程进行梳理,完成核心功能的详细设计。最后,根据设计方案开发实现行业短信分析系统,并对系统进行功能和性能测试,确保符合系统需求。本系统利用文本聚类、文本分类等技术和大数据处理技术,实现对大量历史累积的行业短信进行快速、有效、深入地分析,满足了业务人员频繁、复杂的数据分析需求。本系统具有多个创新点和优势:支持多种分析手段、可建立标签丰富的用户画像、支持多行业类别、采用多分类器集成、分布式存储和并行处理。支持多种分析手段指,包括聚类分析、行业分类、风险分类、数据查询、数据统计、号码匹配。此外,通过数据挖掘可对每个短信用户建立多标签的用户画像,方便公司掌握业务状况,也可基于此与广告公司合作,进行精准营销,发挥短信数据的二次价值。在行业类别方面,本系统支持多达59种行业类别划分,从传统行业到近年来新兴行业均有覆盖。由于分类标签众多且每条短信可能属于多个行业类别,故在分类器方面,采用能处理多输出问题且兼顾分类性能的集成学习XGBoost算法,分类性能提升明显。此外,基于Hadoop和Spark的框架,使得系统相较于传统数据存储方案,具有高容错、高吞吐、处理速度快等优势。
其他文献
为了对海量网络数据中的知识进行有效地组织和表达,知识图谱应运而生。然而,知识图谱往往存在稀疏和不完备的问题,影响着其在下游任务中的实际效用。事实上,许多缺失的知识,可以在知识图谱中已有知识的基础上挖掘推理出来。作为知识图谱补全的重要手段,知识图谱推理技术逐渐成为学术界和工业界所关注的热点。知识图谱推理技术旨在从知识图谱中已有的知识出发,通过计算机推理来挖掘其中潜在的隐含知识。一般地,仅从知识图谱中
射频识别(radio frequency identification,RFID)技术是一种重要的物联网技术,它通过标签吸收并反射阅读器发送的电磁波能量进行标签与阅读器的数据交流。与传统的自动识别系统相比,RFID具有读取距离较远,穿透能力强,处理效率高,存储容量大、可重复利用、可以识别高速运动中的物体等特点,被广泛的应用于工业、商业自动化以及交通运输控制管理等多个领域。RFID系统能够通过标签防
近年来,区块链成为了互联网领域的研究热点。联盟链有着安全性、可追溯性、不可篡改性等优势,且相比公链来说其共识算法通常算力浪费少,有着广泛的应用场景。但现有的联盟链中通常每个节点都会存储整个链上的所有数据,当数据产生速度较快时,会导致联盟链中各个节点需要存储的数据飞速增长,造成高昂的存储代价。针对联盟链存储代价高昂的问题,本文设计了一种新的分布式存储机制,其通过将新生成的区块按照合理的存储分配算法分
随着时代发展变革,计算机技术发展势如破竹,人工智能就是典型例证。机器定理证明是人工智能的重要内容,其起源可追至莱布尼茨时代,涉及计算机、数学、逻辑学等多个学科。自动定理证明技术旨在实现计算机自动推理证明,随着时间推移,交互式证明工具也称证明助手应运而生。Coq是一种国际上主流的交互式证明工具,依赖其严谨性、可读性、可信性等特点,基于计算机语言Gallina,合法命名与代码规范实现数学定理的证明或系
近年来随着信息化的不断发展,网络攻防对抗形势越演愈烈,网络安全事件也层出不穷。在国家政策和网络安全形势推动下,网络安全产业近年来取得了快速发展。但网络安全项目属前沿领域,技术复杂度较高,存在较多不确定因素,因此在网络安全项目中引入风险管理研究尤为重要。本文以风险管理理论为基础,结合项目实际情况针对G公司网络安全态势感知项目进行风险管理研究。首先对项目管理理论以及网络安全项目风险管理特点进行了分析阐
6LoWPAN 网络是进入IPv6时代后物联网中的重要组成部分,在万物互联中发挥着重要的作用,是连接受限制的物联网和传统IP网络之间的重要技术。在以往的6LoWPAN传感网络研究和应用场景中主要存在两类问题。首先,传感器测量的数据往往具有很大的分析价值,但如果数据被泄露给不可信的机构,这些非法机构有可能会依据自己手中的背景知识来非法利用传感数据进行分析,从而会造成隐私泄露。为此,传感网络中的数据隐
随着网络规模的不断扩大,网络性能测量平台需要改进探针的调度方法,以实现对大规模网络性能状况的测量。然而,如果选择所有探针对目标网络执行网络测量,不仅会给网络带来大规模的网络测量流量,而且还会给网络测量平台及探针带来较高的消耗。此外,探针的状态也会对网络测量结果产生很大的影响,特别是探针的负载。当探针的负载超过一定限度后,可能会发生宕机等故障导致网络测量准确度降低。然而,在现有的网络性能测量中,探针
在当今信息科技飞速发展的时代,人工智能已经广泛应用到了教育领域。在青少年信息化教育中,基于Scratch的块编程越来越受到老师和学生的青睐。利用Scratch工具创作诗歌作品,能够让学生掌握Scratch编程技能,同时又提升语文学习兴趣。在目前的Scratch平台上,并没有为诗歌创作提供相关扩展块,从而使得Scratch诗歌作品创作具有局限性。因此在Scratch平台中,利用深度学习相关技术设计与
不规则自然场景文本检测与识别在机器导航、图像搜索、场景理解、即时翻译和工业自动化等相关领域有着广泛的应用前景,同时也是计算机视觉领域的关键技术,近年来已成为热门的研究方向。典型文本识别系统的处理流程为:首先通过文本检测算法定位图像中的文本实例,然后通过文本识别算法对文本实例进行识别。其中文本检测算法的输入为高分辨率的场景图片,其检测的准确度和处理速度对后续识别性能的提升有重要影响,而文本识别算法需
毫米波频段所含有的丰富频谱资源,使得超高速率的无线通信成为可能。作为无线通信系统中不可或缺的一部分,天线及天线阵列的设计已经成为制约整个无线通信系统发展的重要因素。本文围绕不同场景下毫米波天线阵列的设计展开研究,具体研究内容如下:1、提出了一种通过使用阶梯型结构进行带宽展宽的宽带圆极化天线单元。并通过设计具有宽带馈电特性的1分64渐变型微带功分网络,完成了天线阵列的设计。与现有设计相比,所提出的阶