基于kafka的电商企业搜索引擎数据综合处理系统的研究与应用

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:qjbfg123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务行业的高速发展,线上与线下加速融合,伴随业务的不断发展,系统中存储的数据量也大幅增长。而对其中的数据,比如商品数据、库存数据、门店数据等多种类数据的汇集、查询、排序、筛选的需求日渐突出。这对企业电商平台的搜索功能提出了更高的要求。构建一个符合企业业务场景的商品搜索引擎,可以大大提升顾客的购物体验,对企业有着重大的战略和实际意义。而数据综合处理系统可以解决商品搜索引擎的数据来源问题,是搜索引擎建设的重要前提。本文旨在基于KAFKA构建一个多源导入的数据综合处理系统,通过对数据的汇集和综合处理,获得满足需要的结构化宽表数据作为计算结果,从而解决电商搜索引擎数据的导入与更新的问题。使得搜索引擎业务能够迅速构建开展。通过研究发现,传统的基于关系型数据库的数据综合处理,在面对业务逻辑复杂、应用规模扩展性方面存在瓶颈。而常见的通用性ETL工具,一方面基于离线场景,数据的实时响应不够,另一方面,可定制性不强,并且需要专业的维护人员,投入成本高。本文从企业的实际需求出发,通过对需求的梳理和筛选,综合项目经济性、人员经济性、项目进度、系统功能完善度、系统扩展性等方面因素,选择了自研数据综合处理系统的方案。首先对需求进行了收集,对系统的周边生态,功能定位进行了定义,同时对系统的非功能性需求进行了确定。进一步的,对数据综合处理的子系统进行了功能定位和边界的划分,明确了每个模块的要求和职责。然后,对数据接收子系统、数据处理子系统、数据提交子系统、任务调度子系统进行了详细设计和实现。通过使用KAFKA、Cassandra、vert.x框架及elastic-job等开源分布式组件的引入,在设计之初,就保证了系统的高性能和可扩展性。同时,设计了应用端统一的系统接收流程规范,从而保证了数据接收的可靠性。通过独特的时间片数据处理机制,发挥了Cassandra、vert.x框架及elastic-job等的特性,使系统可以多类型任务的并行处理,轻量级实现地实现宽表的合并。同时,通过数据接收的顺序性,version的唯一性,解决了任务状态冲突的问题。最后对系统进行了功能性测试和非功能性测试。本文通过对数据综合处理系统研究,发现了目前通用的方案存在的扩展性、实时性、定制性、经济性等问题,通过使用开源分布式组件,自研数据综合处理系统,解决了通用系统在性能和扩展性上的问题,同时,通过设计系统接收流程规范和时间片数据处理机制,增加了系统的可靠性,最终保证了系统的顺利上线。
其他文献
目的 测定北京地区婴儿超声波沿骨骼长轴的传播速度(SOS),定量地监测骨骼强度。方法 应用以色列Sunlight公司提供的仪器测定了北京儿童的SOS,共检测365例0~2m的北京地区健康婴儿(女
介绍了以大量实验数据为基础,利用V isual FoxPro语言开发的缓冲包装设计数据库。该数据库在实现对缓冲材料信息存储、管理、查询的基础上,增加了运输环境信息、产品信息和缓
利用Miseq高通量测序技术分析模拟再生水管网SA1和SA2中具有不同水泥/矿渣粉比例的水泥砂浆试片A1 (5:5)和A2 (6:4)表面微生物群落结构,定期监测管网出水的关键指标,利用失重和X
目的分析个性化护理干预对小儿肺炎支原体感染疗效的影响。方法 78例肺炎支原体感染患儿,随机分为观察组和对照组,每组39例。观察组患儿实施个性化护理干预,对照组患儿实施常
越南与中国是近邻,两国人民之间关系密切,交往频繁。华侨前往落脚谋生的时间较早,人数较多,胡志明市唐人街在东南亚也是久负盛名的唐人街之一。该市唐人街形成的历史脉络如何
本文主以A高校试点开展的《高等学校知识产权管理规范》情况为样本,阐明此项工作的现实意义,最终为全省乃至全国范围内的推广提供参考依据。
在经济发展的带动下,人民的生活水准不断提升,现代化进程不断推进,愈来愈依赖于无线通信技术的发展。物联网技术的迅猛发展推动了无线网络通信技术更快地发展,逐渐适用于社会
由于现代技术的泛化和产品的同质化,工业生产的高产化,加速了产品的更新换代,使得更多的资源成为新的"垃圾"。当大谈"设计"的时候,意味着强调人类自我的生存能力,后人还有多
采用慢应变速率拉伸(SSRT)实验,结合不同扫描速率下的动电位极化曲线,对316L不锈钢在动电位极化曲线不同区下的应力腐蚀开裂(SCC)敏感性以及腐蚀机理进行了研究。通过断口的S
“我到四师几趟,就来六十四团几趟。六十四团紧紧围绕‘两个坚定不移’重要指示精神及‘访惠聚’活动三项重点工作和七项任务,在加强基层党组织建设、改善民生、社会稳定、民