负反馈调节机制在数据质量管理中的应用与实施

来源 :现代信息科技 | 被引量 : 0次 | 上传用户:xr6088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着企业信息化的发展,数据质量的好坏,直接影响到信息的准确程度,关系到企业管理层基于信息做出的判断与决策。在主数据管理中,解决系统集成时异构系统性能异常所导致的数据差异问题,是企业竞相追求的目标,但是单凭相应人员的手动调整,成本不低,因此建立一种自动化的数据质量调节机制势在必行。文章结合STEP主数据管理平台,提出一种数据差异的负反馈调节机制,全面提高企业信息化系统中的数据质量,通过真实的案例对比,证实了数据质量得到极大的提升。
  关键词:数据质量;企业信息化;负反馈;主数据管理;系统集成
  中图分类号:TP39      文献标识码:A 文章编号:2096-4706(2021)07-0123-04
  Application and Implementation of Negative Feedback Regulation Mechanism in Data Quality Management
  XIA Rong,ZHAO Jie
  (Information Center of Zhuzhou CRRC Times Electric Co.,Ltd.,Zhuzhou  412001,China)
  Abstract:With the development of enterprise informatization,the quality of data directly affects the accuracy of information and the judgment and decision-making made by enterprise management based on information. In master data management,it is the goal of enterprises to solve the data difference caused by abnormal performance of heterogeneous systems during system integration. However,the cost is not low only by the manual adjustment of corresponding personnel. Therefore,it is necessary to establish an automatic data quality adjustment mechanism. Combined with the STEP master data management platform,this paper proposes a negative feedback adjustment mechanism of data difference,which can comprehensively improve the data quality in the enterprise informatization system. Through the comparison of real cases,it is confirmed that the data quality has been greatly improved.
  Keywords:data quality;enterprise informatization;negative feedback;master data management;system integration
  收稿日期:2021-03-18
  0  引  言
  在大数据时代,数据的商业价值日益凸显,而数据质量的好坏则是重中之重,为提高数据质量,国内外众多学者纷纷进行了深入的研究,文献[1,2]对数据质量和系统理论进行了深入说明,文献[3,4]对数据质量评估方法进行了研究,文献[5,6]分别介绍了国内外信息化数据质量管理方法,文献[7]介绍了企业报表的数据质量管理,文献[8]从电力企业的实际业务出发,分析了全面实施数据质量管理的方案和意义,文献[9]分析了企业数据质量的监控与提升方案,文献[10]对企业信息化中统计数据的质量因素进行了分析,文献[11-19]分别对企业信息化中数据质量差异的现状和影响因素,提升与优化方案进行了探讨。纵观之前的研究成果,对数据质量的自动化调节尚未深入实践研究。本人在中国中车下一级子公司中车株洲所负责主数据管理系统的运维,每天面对几万条数据在系统中交互,业务繁忙时有几十万条数据在主数据管理系统中完成数据的集中存储分发,通过企业服务总线监控,发现每一天在主数据经企业服务总线分发到下游系统的过程中,都会出现数以万计的服务異常,高并发时则更严重,如若仅凭人为干预去调节这种异常,工作量之大可想而知。为此本人创造性地提出一种数据质量自动调节机制,通过在下游系统和主数据之间建立增量负反馈调节下发机制,有效解决了企业数据质量不佳的问题,极大地降低了企业数据质量管理的运维成本。
  1  数据质量定义及其评价指标
  数据质量,顾名思义就是数据的质量,也包括数据值的质量、数据模型设计的质量、数据管理流程的质量。数据质量指标(Data Quality Index,DQI),是基于最小化“数据缺陷(错误)率”,通过持续不断的数据质量验证进行管理的评测指标,主要包括数据的完整性、唯一性、有效性、一致性、准确性、及时性。
  1.1  数据的有效性
  数据的有效性(Validity)是指数据项必须满足所定义的数据有效范围以及域条件,在确保数据的一致性、唯一性、准确性、及时性、完整性的前提下,需要考虑数据的有效性。   1.2  数据的准确性
  数据的准确性(Accuracy)是指现实世界中存在的对象表示值,必须准确地反映出来。有了可靠的原始数据,才能加工出准确的信息,并保证决策者做出正确的判断。
  1.3  数据的及时性
  数据的及时性(Timeless)是指数据产生的时间须满足业务分析的时间要求,一个好的应用系统在使用数据时,不仅要求数据的适用性,还必须考虑数据的及时性。
  1.4  数据的完整性
  数据的完整性(Completeness),其重要性远不及数据的准确性和及时性,但其作用也不容小觑。数据的完整性就是我们日常所说的“数据齐、全、准”当中的“全”,必需的数据项,不得遗漏。
  1.5  数据的唯一性
  数据的唯一性(Uniqueness),即表示数据项必须唯一,不得重复。包括单独唯一性和条件唯一性,单独唯一性是指字段必须为唯一值,比如客户的ID必须唯一;条件唯一性是指根据业务条件字段值必须唯一,例如教育课程的安排、课程日期和开设地点必须唯一。
  1.6  数据的一致性
  数据的一致性(Consistency)是指数据所要遵循的结构和值,表现为数据的形态必须始终一贯、一致。体现在四个方面,分别为指标代码一致性、参照一致性、数据流一致性、字段连贯性。
  数据除具有上述质量特性之外,还具有可取得性、可衔接性、可解释性、客观性、专业性、可比性等非质量特性,这些特性对数据的质量控制不会产生较大影响,因此不做过多的讨论。
  数据质量度量可以帮助企业建立全面的数据质量监控体系,企业的数据质量管理员,根据数据的不同性质综合运用数据质量度量,实现对企业数据质量的监控有重点、不遗漏。例如,对于数据仓库基础库表,侧重于完整性、唯一性、一致性的监控;对于报表、指标等最终输出数据,侧重于准确性、及时性、合法性的监控。
  数据质量的完整性、唯一性、准确性等需要前台的校验规则去规避,设定好规则,录入数据的这几项指标就能得以提高,及时性、有效性主要是通过流程设计合理和接口逻辑严谨把控的,本文主要在主数据系统(Stibo System)中,从一致性方面考虑,通过定性分析和定量计算,探究反馈调节机制在数据质量管理中的应用。
  在应用系统中,各个系统中的接口调用异常时有发生,网络的波动,下游系统的性能不佳,高并发时的接口不足,均会导致数据传递异常,这方面的问题不属于错误,往往可以通过重新同步得以解决,比如在系统性能稳定或网络条件好时即可恢复,但是不定期大量数据的手动重复调用是一个很烦琐的工作。本文所探讨的反馈调节方式——一种自适应数据调节下发机制,可有效提升数据质量。
  2  反馈的基本概念
  反馈又称回馈,是控制论的基本概念,是指将系统的输出返回到输入端并以某种方式改变输入,进而影响系统功能的过程。反馈可分为负反馈和正反馈。前者起到使输出与输入相反的作用,使系统输出与系统目标的误差减小,系统趋于稳定;后者起到使输出与输入相似的作用,使系统偏差不断增大,使系统振荡,可以放大控制作用。对负反馈的研究是控制论的核心所在。
  3  负反馈调节机制在主数据管理中的应用
  STEP主数据管理系统中数据的进入由Inbound集成端点控制,数据下发由Outbound集成端点控制,数据的运算由EventProcessor控制,除了Inbound,Outbound和EventProcessor都可以受监听触发,三者均可以根据规则去运算处理,STEP主数据管理系统客户端界面如图1所示。
  以物料主数据下发ERP为例,实验步骤为:
  (1)在客户端上建立一个EventPorcessor(事件处理器),并设置监听字段为erp_matl_check_status(ERP物料數据差异质检状态);该字段初始值为空。
  (2)在Inbound中加入规则,规则逻辑为与ERP传输过来的字段数值作对比,多个字段差异按照字符串拼接,并把差异描述信息更新为这个字段的值,数据每次反馈进入主数据均会更新这个字段的状态。
  (3)我们利用事件处理机制的API来编写业务规则Queue.republish(node),当所监听字段触发变动时,通过EventProcessor运算这个规则,将产生的事件发送到下发ERP的队列(crrc_matl_outboundALL)。
  (4)ERP产生增量数据后定时传送到主数据Inbounnd所存储目录,如此形成闭环,当数据无差异时,EventProcessor不会受监听触发,整个过程达到收敛。
  图2为主数据负反馈调节数据完整架构图,数据由上游系统录入,在主数据管理系统中完成集中存储分发,数据分别流向下游系统。为保证下游系统的数据质量,我们在每个下游系统和主数据系统之间建立增量反馈通道,细节如图3(负反馈调节原理图)所示。假设设定某一数据类型,下游系统反馈到主数据的数据量为增量a,上游系统传入主数据产生的增量为b,b可以大于a,小于a,或者等于a,b大于a的情况我们不予考虑,这种情况在实际中也会存在,一般是系统出现大故障之后的数据状态,因此当a=b时,数据进入主数据之后,进行差异比对,利用主数据内部触发机制,将差异数据再次下发进入下游系统,如果a  为了比较数据一致性,我们设向量A={a1,a2,a3,…,an},B={b1,b2,b3,…,bn}分别表示在两个系统中主键相同的两条数据,其中a1,b1抽象表征对应属性值,在这里我们只比对是否相等,记相等为0,不相等为1,则两个系统数据差异可以通过式(1)确定:
  (1)
  通过式(1)可以得出结论,当S为1时,数据完全差异,当S为0时,两个数据无差异,当S≠0时,即可断定这条数据不一致。现在将m条数据分别计算S值,并取平均值,即可得δ值,此参数表征两个系统中同一种数据的平均差异情况,δ越大,差异越大,反之δ越小,差异越小。
  (2)
  以系统中特定工厂的564 513条物料数据为例,核心属性(45个),将数据全部下发,经过一定时间传输后,分别计算统计引入负反馈调节机制和无反馈调节的数据差异情况,相同的系统条件下,登记并计算δ,结果如表1所示。通过在实际的业务中增加反馈调节机制,从表1中可以看出主数据与下游系统的数据质量差异,明显有了质的改变。
  在此反馈调节过程中需要注意的是,数据差异字段的评判逻辑,比如主数据A的属性为kg,下游系统的属性值为千克,如果评判逻辑为严格一致,那么每次反馈的差异将会是不一致的,这会导致数据增量每次反馈,触发下发,反馈,触发下发,陷入无限循环,这样会对系统性能造成很大的影响,我们需要在性能和质量上寻求一个平衡,比如设置一定的循环次数,当到达此次数后,跳出循环。此外,这种反馈调节机制,对于由数据本身准确性所导致的下游系统校验问题、流程及接口的逻辑错误问题是不可修复的,对于此类问题,将会以邮件通知的形式,通知对应的数据管理员,告知其及时对数据做出修正。
  4  结  论
  本文在企业实际业务系统中,即在主数据平台和下游系统之间建立一种反馈调节通道,提出一种数据质量的负反馈调节机制,从数据质量的差异性角度出发,通过对实际业务运转的定性分析和定量计算,有效减少了主数据上下游系统间的数据差异,同时自动调节方式有效减化了系统中人工梳理数据的过程,降低了运维成本。随着企业信息化的不断深入,数据的质量越来越重要,在大数据、云计算时代,对数据质量的监控、调节应朝着更加自动化和智能化的方向发展。
  参考文献:
  [1] KAHN B K,STRONG D M,WANG R Y. Information quality benchmarks:product and service performance [J].Communications of the ACM,2002,45(4):184-192.
  [2] ORR K. Data quality and systems theory [J].Communications of the ACM,1998,41(2):66-71.
  [3] 杨青云,赵培英,杨冬青.数据质量评估方法研究 [J].计算机工程与应用,2004(9):3-4+15.
  [4] 黄武锋,郑华.面向企业信息化的数据质量评估研究 [J].计算机技术与发展,2011,21(1):185-188+192.
  [5] 宋敏,覃正.国外数据质量管理研究综述 [J].情报杂志,2007(2):7-9.
  [6] HUANG K T,LEE Y W,WANG R Y. Quality information and knowledge [M].Upper Saddle River:Prentice Hall PTR,1998.
  [7] 胡文娟.企业报表系统的数据质量管理 [J].中国新通信,2017,19(22):97.
  [8] 王英洁.企业全面数据质量管理体系研究 [C]//2010电力行业信息化年会.2010电力行业信息化年会论文集.长沙:期刊会展中心,2010:169-172.
  [9] 毛一凡,张冰,任毅.企业数据质量的监控及提升 [C]//2017智能电网发展研讨会.2017智能电网发展研讨会论文集.北京:出版社不详,2017:313-315+432.
  [10] 温雪,张伟.企业信息化统计数据质量影响因素分析 [J].山东工业技术,2018(8):219.
  [11] 陈远,罗琳,沈祥兴.信息系统中的数据质量问题研究 [J].中国图书馆学报,2004,30(1):48-50.
  [12] 亓文会,李传春.企业信息化中数据质量监督控制研究 [J].中国管理信息化(综合版),2007(7):15-17.
  [13] 卢绍年.浅析企业信息化建设与数据质量 [J].广西电业,2013(3):88-89+96.
  [14] 谭驰.数据质量管理系统研究与应用 [J].贵州电力技术,2014,17(4):71-73.
  [15] 朱如,李庆峰.数据质量管理与企业信息化建设 [J].计算机时代,2005(6):31-33.
  [16] 彭健恩.探讨数据质量管理的未来发展 [J].科技资讯,2017,15(29):242-243+245.
  [17] 景瑞娜.提高数据质量管理的几点思考 [J].中国金属通报,2018(4):137-138.
  [18] 毕月侠.影响企业信息系统数据质量的因素和提高的措施 [J].现代商业,2009(12):222-223.
  [19] 赵长生,姜立勇,董松金,等.制造型企业信息化基础数据整理研究 [J].机械设计与制造工程,2013,42(1):44-48+52.
  作者简介:夏荣(1987—),男,汉族,湖北洪湖人,助理工程师,硕士研究生,研究方向:混沌图像加密、主数据管理、大数据技术;赵捷(1988—),男,汉族,湖南株洲人,助理工程师,硕士研究生,研究方向:数据分析、数据挖掘、机器学习。
其他文献
数据中心承担着现代社会的信息服务,然而当前基于传统网卡的数据中心面临着严重的性能瓶颈,难以适应高效数据传输处理需求。通过结合以服务器为中心的数据中心网络和多端口智能网卡的优点,提出了基于多端口智能网卡的数据中心网络MPS-DCN架构设计,并以MPS-Cube为例介绍其构造和路由过程。该类网络设计能够充分利用多端口智能网卡的可编程性,实现智能化的网络协议处理和网络功能卸载,从而提升网络吞吐量。
Unity3D是目前国内相对流行的游戏开发软件,而音乐游戏也是自游戏发展以来就极其盛行。文章基于Unity3D开发制作了一款音乐游戏,其主要功能包括人物控制、按键消音、乐谱管理、分数统计、UI界面与音效以及特效播放。该游戏与传统音乐游戏不同,添加了动画人物以及打击动作,使音乐游戏与动作游戏相互结合。通过此游戏,玩家们能够在游玩之余享受音乐以及通关的乐趣。
摘要:在Roboguide平臺模拟工厂,通过虚拟环境优化工厂布局并仿真生产过程,在虚拟环境中能真实地模拟生产线的运动,为设计提供依据可行性的根据,且在计算机上可方便地修改完善设计,实验不同的方案,对生产线进行不断的优化,可以大大减少调试的成本。在ROBOGUIDE平台上分别从机器人控制柜、机器人执行机构、到工装数模和外围设备进行设计,从而完成机器人加工生产虚拟环境的仿真设计,为机器人仿真提供了基础
广播式自动相关监视(Automatic Dependent Surveillance-Broadcast,ADS-B)系统作为民航独立的监视手段具有一定的脆弱性。现提出基于卡尔曼滤波算法进行ADS-B航迹预测的方案,为进一步鉴别ADS-B位置信息的真伪提供可靠的技术支撑。通过解析ADS-B报文中的位置信息,建立卡尔曼滤波模型,计算航迹预测观测点数,完成基本的航迹预测实验。理论分析和仿真实验结果表明基于卡尔曼滤波算法的ADS-B航迹预测效果很好。
体素形状表达一直是三维形状表达方法中的重要研究内容。现有的基于深度学习的体素形状表达的特征编码学习是一个重要的研究问题。目前,体素的特征编码采用3DCNN,只利用了体素的层次特征。同时,计算的代价十分昂贵,需要占用大量的显存。更高精度的特征编码方法有待进一步研究。针对体素的特征编码问题,提出了一种基于多尺度残差特征的形状表达编码模型,学习更有效的特征编码。在此基础上在解码器中引入自注意机制,进一步
VR技术作为当代新型技术之一,是集计算机软硬件技术、机器人技术、传感技术以及人工智能等多种技术为一体的产物,其发展能为社会带来巨大的变革,其出现也为数字媒体技术的发展提供了新的方向。鉴于此,文章主要对VR技术、数字媒体技术的概念与特点进行阐述,同时分析这两种技术的结合及其应用,以便为以后技术的发展提供参考。
随着计算机科学技术的发展,全球主要资本市场凭借信息化的高效优势,得到飞速发展,电子化交易广泛普及,计算机科学技术逐渐与各个学科技术相互融合,人们开始专注于使用计算机程序进行股票的预测分析,甚至是实现自动化交易。通过对量化交易系统展开研究,对现有交易策略进行分析并根据其存在的不足进行改进,以此实现量化交易系统的有效运行,进行回测来指导投资者并为其带来超额收益。
文章以一个实际工程中典型的案例为基础,探讨了route-map这个非常强大而有用的工具的使用方法以及routemap在重发布技术中的应用技巧。在完成基础配置以及动态路由协议RIP和OSPF配置后利用重发布实现全网互通,最后为了实现数据分流和链路备份,使用ACL抓取路由条目,配置route-map并在重发布时应用。通过相应的部署,可以实现数据分流和链路备份,保障网络的可靠性和稳定性。上述探讨既有助于读者对route-map和重发布技术相关工作原理的理解,又有助于熟练掌握其配置方法。
验证码是目前大部分网站用来防止批量注册、刷票等恶意操作的图灵测试手段。为了帮助开发者设计出更缜密的安全策略,将生成的5 000张混合英数的不定长验证码作为训练集,基于PyTorch学习框架,使用卷积循环神经网络来训练模型,CTC算法对标签进行对齐,实现对不定长验证码的识别。实验表明,最终该模型对不定长验证码的识别准确率达到了99.2%。
基于时间区间的模糊描述逻辑TFDL是对模糊描述逻辑在时间上进行限定讨论的一种新的描述逻辑。TFDL对个体,概念和关系的模糊隶属度用vague集来进行描述,其语法是在模糊描述逻辑ALCN的语法基础上的扩充。研究在其语法、语义的基础上给出相应的知识库,给出TFDL的Tableau判定算法,该算法继承了描述逻辑Tableau算法的基本特征,通过构造知识库中表达式的解释模型来证明其可满足性。