论文部分内容阅读
摘要:针对电力营销稽查业务,构建了一种分层复用的数据融合模型,支持灵活自定义数据融合规则,以及该模型下存在的冲突及解决办法,同时设计开发了一套基于电力营销稽查业务场景的多源数据融合应用。应用采用JAVA语言设计,中间件采用weblogic,模型以及集成信息采用JSON描述。以前面对海量、多源和异构表现形式的电力营销数据,仅靠有限的稽查人员人工甄别、阀值筛查、随机按比例的方式抽样稽查,客观上造成稽查工作不够全面、异常发现不及时,准确度不高等问题,工作效率也低。现在利用多源数据融合应用,通过界面直接在不同的数据源和库表中选择需要的字段信息后,由系统依据表间关系,自动生成数据融合规则,使获取的数据更加全面完整,通过统计与分析应用,挖掘隐藏的异常规律和数据价值,实现电力营销稽查异常的及时发现和预测预警能力。
关键词:电力营销稽查;多源数据融合;数据融合模型;模式映射;统计与分析应用
Abstract: According to the power marketing inspection business, to build a hierarchical multiplexing data fusion model, support flexible custom data fusion rules and conflict under the model and the existence of solutions, and designs a multi-source data fusion application of electric power marketing inspection business based on scene. The application is designed with JAVA language, and the middleware adopts Weblogic, model and integration information. It is described by JSON. Before the face of the power marketing data massive, multi-source and heterogeneous forms, relying on limited inspectors manual screening, screening threshold and random proportional sampling inspection, which caused inspection work is not comprehensive enough, anomaly detection is not timely, accuracy problems, work efficiency is low. Now the use of multi-source data fusion application, directly in the different data sources and selection of field information needs of the library in the table through the interface, by the relationship between the tables according to the system, automatic generation of data fusion rules, make the data more comprehensive and complete, through the statistics and analysis of data mining application, anomaly regularity and hidden value, the realization of power marketing inspection abnormal timely detection and prediction capacity.
Keywords:Power Marketing-Inspection; Multi-Source Electricity Marketing Data Fusion; Data fusion model; Schema mapping; Statistical and analytical applications
引言
随着互联网技术、数据库技术的快速发展,电力企业内建立了越来越多的信息系统(应用),这些系统(应用)构建在分布的、异构的或自治的数据库上,用来记录各类电力业务信息,随着业务发展和时间的积累,产生了一种海量、多源和异构表现形式的电力数据,这些数据蕴含丰富的知识和有用信息,是电力企业的重要数据,同时也给电力营销稽查带来了很大的困难,仅靠有限的人工甄别,用传统的稽查工作方法,通过随机按比例的方式抽样稽查,对海量的数据无法逐一进行稽查,只能对一些突出的风险开展稽查工作,客觀上造成稽查工作不够全面、用户覆盖率低且很难做到及时发现问题,甚至一些问题到发现时已非常严重,解决困难。
因此,提高数据的利用率,挖掘数据的潜在价值,就显得尤为重要,但是,这些系统(应用)在系统架构、数据结构、查询语言等方面一般均存在较大差异,用户没有统一的数据模型和查询方式获取这些不同数据源的数據,很难将这些多源数据按工作需要整合为单数据源进行查询和分析。研究利用多源数据融合技术,使得获取的数据更加全面完整,从多数据源、不同角度挖掘出隐藏异常规则和数据价值,最终实现电力营销稽查异常的及时发现和预测预警能力。
1.问题提出
1.1电力营销稽查业务特征
电力营销管理中,营销稽查的业务主要有5个方面。 1)业扩报装稽查
电力业扩报装是供电企业的一项重要工作,是供电企业为千家万户传输生产生活所需电力,服务地方经济发展的一项重要工作,也是供电企业增供扩销的主要途径。而业扩报装稽查就是要对整个过程进行监督和检查,反映业扩报装整体工作水平、业扩报装提供服务质量保证情况,以及业扩报装制度是否有效执行等。
2)计量管理稽查
计量管理稽查工作主要包括:监督检查电力用户电能、计量装置中出现的问题以及后期的处理和改造情况;对不同种类的计量装置的计量方式及二次计量情况做检查;监督电力营销过程中重要用户电能计量装置的现场运行技术管理情况等。
3)用电检查稽查
用电检查稽查工作主要包括:监督和检查电力营销中供电合同的签订过程,保障供电合同签订的有效性、规范性;及时发现用户电量和电费异常信息,对电力业务发生变更用户进行监督和稽查等。
4)电价电费稽查
电价电费稽查则包括:监督实际过程中电价的执行情况,检查电费报表和台账核算的正确率,及时发现异常;同时还要检查电费记录人员、抄表人员、复核人员等工作效率。
5)营销制度稽查
营销制度稽查指对电力营销管理中企业内部制度的执行程度,有效性和合理性等进行集成,并且根据发现的问题,及时采取对应措施进行完善,或者提出改善建议。
营销稽查工作实际涵盖许可方面的内容,做好营销稽查工作意义重大,不仅可对整个电力营销业务流程及活动起到监督和督促的作用,还能有效避免出现各种问题,提升企业的营销管理和服务水平,增强企业营销的经济效益。
1.2营销稽查现状及存在问题
由于我国电力营销稽查工作起步较晚,营销稽查体系建设不够成熟和完善,实际工作中,稽查工作人员可利用的手段较为落后,导致工作人员工作量过大,效率不高,营销过程中出现的异常发现不了或不及时的现象时有发生。主要原因则来自两个方面:
1)营销稽查的工作模式
营销稽查从传统的人工排查模式,发展到现有的阀值筛查,虽然工作效率有了很大的提升,但异常发现还是停留在事后监督,很难做到事前预测预警。同时阀值筛查处理方式简单,设置不同的阀值对异常的筛查范围影响很大,阀值设定基本都是靠工作经验设置,实际效果有限。
2)在线稽查的实用水平
在线稽查利用信息化系统,基于阀值筛查手段,对营销过程数据进行实时监控,极大的减少了人员排查的工作量,提高了异常发现率,但受限于系统功能(基于阀值筛查而不是基于数据分析)和时间因素,面对长时间的营销业务稽查或复杂的业务,尤其在防窃、防漏方面,比如10年以上的用户电量电费异常稽查就束手无策,这么长的时间,企业可能已换过多个系统,数据很难汇总分析,几个简单的阀值显然不足以支撑这样的稽查业务需要。
综上所述,要解决当前营销稽查存在的问题,必需引入数据挖掘、智能分析等技术手段,提高信息化的应用水平。
1.3存在的技术挑戰
面对当前营销稽查存在的问题,使用数据挖掘、智能分析等技术已必不可少,市场上也有很多成熟的数据分析平台,但多注重数据分析算法、数据可视化效果展现,对其数据分析根源的目标数据少见好的解决方案,尤其在电力营销行业,分析存在这种情况的原因主要是:
1)数据分析算法、数据可视化效果相对业务来说,比较独立。例如决策树、聚类等分析算法适用很多企业业务,功能实现起来有成熟的理论支撑。
2)而作为数据分析源头的目标数据,不同的行业、不同的企业、不同的管理者等对数据要求都有不同,无法形成统一的数据模式。
因此,我们针对电力营销稽查业务,提出了一种数据融合模型,支持不同数据源的融合,形成单一数据源后执行分析或统计;支持用户按自己的需求选择数据源进行融合,进而执行更高的数据应用。真正实现“自定套餐,自我使用”,相比以前“选择套餐,自我使用”的数据模式有了更高的要求。
2.数据融合模型的构建
2.1数据融合
数据融合也被称作信息融合,是一种多源信息处理技术。它通过对来自同一目标的多源数据进行优化合成,获得比单一信息源更精确、完整的估计或判断。最早应用在军事领域,包括航空目标的探测、识别和跟踪,以及战场监视、战术态势评估等。美国防部三军实验室理事联席会给出的数据融合的定义:指一个对从单个和多个信息源获取的数据和信息进行关联、相关和综合,以获得精确的位置和身份估计,以及对态势和威胁及其重要程度进行全面及时评估的信息处理过程;该过程是对其估计、評估和额外信息源需求评价的一个持续精炼的过程,最终获得结果的改善。
目前,多源数据融合被广泛应用于各研究领域。利用数据融合技术可以将电力营销业务中各种分散的数据,如电表、设备、客户用电、动态事件、地理空间、电网拓扑等数据和电力企业内外各种信息系统数据有机整合做稽查,在分析、处理、挖掘的基础上,提炼出有稽查价值的信息,进而缩小稽查范围,提高问题命中率和准确度,实现营销稽查向智慧型转变。
2.2模型构建
要实现电力营销数据的融合,支撑营销稽查需求,需要建立一套灵活实用的多源数据融合模型,下面提出了一套模型结构,给出了模型冲突及解决方法,并详细阐述了融合过程。
2.2.1模型结构设计
这是一种基于电力营销稽查业务而设计的一套分层复用的数据融合模型,其结构如下图所示:
该数据融合模型主要有四部分组成:
1)数据接口适配器
是与各类数据库或数据集相连接的接口程序。
2)库表结构管理
在逻辑上将多个数据库或数据集的数据源信息、表结构信息进行结构化存储,并建立库表注册机制,建立表及字段级权限控制,保证数据的有效性和安全性。库表结构管理包括:数据源管理、表信息管理、列信息管理、主外键信息管理、索引信息管理和表间关联信息管理(表与表之间的关联信息)。 3)分层模式映射
分为三层模式映射(如图1中虚线方框所标示),依据库表结构管理一对一自动生成源表级映射,系统依据源表级一对多映射一些重要且常用的分析主题形成系统级映射,用户可依据源表级映射、系统级映射自定义用户级映射,同时用户级映射还可自我复用,这种数据映射关系都将以JSON的格式保存在分析规则库中。
4)数据融合规则生成及解析
提供一种用于记录和描述用户自定义多源数据融合的语义描述,由规则生成和规则解析两部分组成,本模型中用JSON对描述语义进行描述(如下图2示意)。当用户选择数据源、库表、字段信息、以及设置数据筛查条件后,系统自动生成融合规则;当用户执行分析时,系统对融合规则进行解析,转化为标准统一的SQL语句,查询后将数据结果通过可视化组件显示出来。
JSON描述的主要关键信息有:数據源、表代码、列代码、列字段的中文说明、函数、数据类型、关联查询条件等。
2.2.2模型冲突及解决方法
不同的物理数据库系统结构和应用数据结构以及格式之间往往存在较大差异,如不同字段名表示相同意义的数据、相同字段名表示不同意义数据、字段取值类型不一样、其中一个数据表字段可能由另一数据表中多个字段组成等,这些差异会导致模型冲突。如值域、属性定义、表结构冲突、值和属性、值和表以及属性和表冲突等。
针对这类模型冲突问题,可充分利用分层映射模型,源表级映射通过库表结构注册机制的使用,已在逻辑上做了一次数据结构基本信息的整合,包括字段含义、字段类型、字段属性等,用户通过自定义用户级映射,对来自2个及以上数据库或数据集的数据按需进行逻辑整合,为其确定最终每个字段所属的数据类型和属性,最终融合为一个单一汇总的用户级映射规则,最终由语法解析器进行规则分解,形成标准化的SQL语句,将最终的数据结果反馈给用户。
2.2.3数据融合过程
本文构建的分层复用的数据融合模型将数据融合过程作为一套功能,在用户定制数据的过程中实现融合规则的建立,然后再按规则执行数据融合,保证对源数据不做改动,特别适合营销稽查业务特点,发现问题,监督整改,整个模型运行过程描述如下:
1)先利用库表结构注册功能,在逻辑上进行统一的数据管理,用户在进行数据融合之前,通过界面查看数据表、数据字段等信息并选择所需数据信息。
2)用户配置好需要的数据融合规则后,先保存在分析规则库中,并生成规则菜单或作为规则库使用。
3)当需要使用时,选择规则菜单项,系统执行这个规则,由语法解析器进行解析生成标准化的SQL语句提取数据,最后将数据结果返回,生成高级应用。
4)每个用户自定义的规则可复用,作为其它规则的数据来源。
为保证数据融合处理的效率,对一些经常使用的或数据量大的融合分析集可进行预固化,生成建表规则,建立物理表,将数据写入其中,下次直接使用。
3数据融合模型在电力稽查中的应用
3.1应用体系结构设计
为验证数据融合模型的应用效果,基于电力营销稽查业务场景,设计开发了一套多源数据融合统计分析应用,其结构框图如下:
整个应用体系结构,纵向分为外部集成接口和系统应用两部分,横向由下而上分为存储层、计算层和展现层。
应用采用JAVA语言设计,中间件采用weblogic,模型以及集成信息采用JSON格式描述。
其中库表结构管理、数据分层复用融合模型两个核心功能采用基于服务化的设计开发,通过服务化的接口调用方式协调工作,工作效率和稳定性较好。
3.2主要应用功能
系统主要提供库表结构管理、接口配置、接口运行及监控、分析规则库、标准统计、高级统计、库表关系视图、通用数据查看等功能。
其中,标准统计提供通过可视化界面的分析规则生成功能,用户通过鼠标操作即可完成自定义的分析规则生成和修改操作;高级统计则提供编写SQL语句查询数据的功能。两个功能面向不同层次的用户。下图是标准统计的操作界面:
界面左侧依据注册的库表信息,按数据源分类显示,用户选择需要的库表,系统依据映射规则对应解析出表对应的列字段信息,用户再选择需要的列信息(可跨数据源、跨表选择),列信息选择好后,还可继续定义数据分析筛查条件,操作完毕后,填写分析规则名称和所属类别,点击创建规则按钮,系统生成对应的SQL语句,同时以JSON的格式保存在分析规则库中。最后定义一个菜单,关联定义的规则。查看数据时选择菜单,系统通过解析规则对应的JSON,形成标准的SQL语句执行,反馈数据结果,通过图表可视化控件展现数据。
3.3應用层次及效果
以广州供电局电力营销稽查业务为例,稽查人员结合风险分析,利用这套模型建立的数据融合处理平台,通过自主创建融合统计规则,实现缩小稽查范围,精准定位问题的能力,特别针对时间跨度长的高风险问题,比如电费核查及追讨,可轻松整合新旧系统15年来累积数据,便于稽查员查找比对和数据分析挖掘,准确提供整改意见和闭环管理,促进稽查班员从操作型向智慧型班员转变。
4.结语
针对电力营销稽查业务特点,提出了一种多源数据融合模型,并基于电力营销稽查业务场景,设计开发了一套多源数据融合统计分析应用,面对电力行业的多源数据,支持自主定制数据融合规则和营销稽查数据挖掘分析及应用。从实际应用情况来看,大大提高了对历史多源数据的使用水平,挖掘出了很多往常无法发现的异常数据,提高了稽查的工作效能,有较好的推广应用价值。当前,在表间关联关系快速识别算法、数据可视化展现方面的研究还有待加强,有助于进一步优化对历史多源异构数据的利用,发掘更多的数据潜在价值。
参考文献:
[1] WitoldLatwin,LeoMark,NickRoussopoulos.Interoperability of Multiple Autonomous Databases[J] .ACM ComputingSurveys,1990,22(3):267-293. [2] Levy A Y,RajaramanA,Ordille J J.Querying heterogeneous information sources using source descriptions [C] .In 22nd Intl.Conf.on Very Large DataBases(VLDB),Bombay,India,1996:251-262.
[3] Kementsietsidis Anastasios, Arenas Marcelo, ReneeJ. Miller. MappingDatainPeer-to-Peer Systems:Seman-tics andAlgorithmiclssues[C]. SIGMOD2003, SanDiego,CA,2003:9- 12.
[4] 严怀成,黄心汉,王敏.多传感器数据融合技术及其应用[J].传感器与微系统,2005 ,24 (10) :1-4.
YANHuai-cheng, HUANGXin-han, WANGMin.Multi-sensor data fusion technique and its application[J].Journal of Transducer Technolog,2005 ,24 (10) :1-4.
[5] Kang Dazhou. Description Logics for Fuzzy Ontologies on Semantic Web[J]. Journal of Southeast University, 2006, 22(3): 343-347.
[6] Eric Newcomer,Greg Lomow.Understanding SOA with webser-vices[M].北京:電子工業出版社,2006.
[7] 李立博.面向服务的多源异构数据整合平台的设计[J].计算机工程与设计,2011, 32 (1) :141-144.
LILi-bo,Design of service-oriented multi-source heterogeneous data integration platform[J].Computer engineering and Design,2011, 32 (1) :141-144.
[8] 张明华,黄冬梅,熊中敏,等.多源异构海量海洋数据综合管理平台构建研究[J].海洋科学,2012,36(2):110-115.
ZHANG Ming-hua, HUANG Dong-mei, XIONG Zhong-min,et al. Construction of an integrated management platform for multi-dimension heterogeneous and massive ocean data[J].Marine Sciences ,2012,36(2):110-115.
[9] 耿焕同,张明哲,张勇.多源异构数据的多维决策分析与可视化方法[J].信息技术,2013,11:49-53.
GENG Huan-tong,ZHANG Ming-zhe,ZHANG Yong.A multi-dimensional decision-making analysis and visualization method for solving multi-source and heterogeneous datasets[J] .Information Technology,2013,11:49-53.
[10] 马茜,谷峪,张天成,等.一种基于数据质量的异构多源多模态感知数据获取方法[J].计算机学报,2013, 36 (10):2120-2131.
Ma Qian,Gu Yu,ZHANG Tian-Cheng,et al. A Heterogeneous Mulit-Source Multi-Mode Sensory Data Acquisition Method Based on Data Quality[J] .Chinese Journal of Computers,2013, 36 (10):2120-2131.
[11] 季玲玲,国辉,胡红,等.基于航空平台的多源数据处理系统[J].计算机应用,2014,34(S1):40-42.
JI Lingling,GUO Hui,HU Hong,et al. Multi-source data processing system based on aerial platform[J].Journal of Computer Applications,2014,34(S1):40-42.
[12] 石宇,詹明,尹璐,等.面向对象的多源异构数据关联组织与分析[J].测绘通报,2015 (1) :102-104
SHI Yu,ZHAN Ming,YIN Lu,et al. Research on Associated Orgabization and Analysis of Target-oriented Multi-source Heterogeneous Data[J] .Bulletin of Surveying and Mapping,2015 (1) :102-104
[13] 王荣,张红.数字化油田中多源数据的一体化应用[J].油气田地面工程, 2015 (2):30-31.
Wang Rong,Hong Zhang. Integrated application of multi-source data in Digital Oilfield [J].Oil-Gasfield Surface Engineering, 2015 (2):30-31.
[14] 周爱华,戴江鹏,丁杰,等.面向多源异构电网数据的获取与转换技术研究[J].电力信息与通信技术,2015,13 (7):22-27.
ZHOU Ai-hua,DAI Jiang-peng,DING Jie,et al. Research on Acquisition and Conversion Techniques for Multi-source Heterogeneous Grid Data [J].Electric Power Information and Communication Technology,2015,13 (7):22-27.
[15] 化柏林,李广建.大数据环境下多源信息融合的理论与应用探讨[J].图书情报工作,2015 (16):5-10.
Hua Bolin,Li Guangjian.Discussion on Theory and Application of Mulit-Soure Information Fusion in Big Data Environment[J] .LIBRARY AND INFORMATION SERVICE
[16] 宋杰,谢海宁,杨增辉,等.基于多源异构数据挖掘的配电网故障信息统计分析[J].电力系统保护与控制,2016,44 (3) :141-147.
SONG Jie,XIE Haining,YANG Zenghui,et al. Statistical analysis of the distribution fault based on multiple source and isomerism data mining technolog [J] .Power System Protection and Control,2016,44 (3) :141-147.
作者简介:
伍国英(1978),女,广东广州人。中级经济师,工学学士,从事电力营销稽查管理和系统应用方面的研究工作;潘炜(1987),男,工学本科,工程师,主要从事电力营销稽查系统应用方面的研究工作;陈书弘(1987),男,工学本科,工程师,主要从事电力营销稽查系统应用方面的研究工作。
关键词:电力营销稽查;多源数据融合;数据融合模型;模式映射;统计与分析应用
Abstract: According to the power marketing inspection business, to build a hierarchical multiplexing data fusion model, support flexible custom data fusion rules and conflict under the model and the existence of solutions, and designs a multi-source data fusion application of electric power marketing inspection business based on scene. The application is designed with JAVA language, and the middleware adopts Weblogic, model and integration information. It is described by JSON. Before the face of the power marketing data massive, multi-source and heterogeneous forms, relying on limited inspectors manual screening, screening threshold and random proportional sampling inspection, which caused inspection work is not comprehensive enough, anomaly detection is not timely, accuracy problems, work efficiency is low. Now the use of multi-source data fusion application, directly in the different data sources and selection of field information needs of the library in the table through the interface, by the relationship between the tables according to the system, automatic generation of data fusion rules, make the data more comprehensive and complete, through the statistics and analysis of data mining application, anomaly regularity and hidden value, the realization of power marketing inspection abnormal timely detection and prediction capacity.
Keywords:Power Marketing-Inspection; Multi-Source Electricity Marketing Data Fusion; Data fusion model; Schema mapping; Statistical and analytical applications
引言
随着互联网技术、数据库技术的快速发展,电力企业内建立了越来越多的信息系统(应用),这些系统(应用)构建在分布的、异构的或自治的数据库上,用来记录各类电力业务信息,随着业务发展和时间的积累,产生了一种海量、多源和异构表现形式的电力数据,这些数据蕴含丰富的知识和有用信息,是电力企业的重要数据,同时也给电力营销稽查带来了很大的困难,仅靠有限的人工甄别,用传统的稽查工作方法,通过随机按比例的方式抽样稽查,对海量的数据无法逐一进行稽查,只能对一些突出的风险开展稽查工作,客觀上造成稽查工作不够全面、用户覆盖率低且很难做到及时发现问题,甚至一些问题到发现时已非常严重,解决困难。
因此,提高数据的利用率,挖掘数据的潜在价值,就显得尤为重要,但是,这些系统(应用)在系统架构、数据结构、查询语言等方面一般均存在较大差异,用户没有统一的数据模型和查询方式获取这些不同数据源的数據,很难将这些多源数据按工作需要整合为单数据源进行查询和分析。研究利用多源数据融合技术,使得获取的数据更加全面完整,从多数据源、不同角度挖掘出隐藏异常规则和数据价值,最终实现电力营销稽查异常的及时发现和预测预警能力。
1.问题提出
1.1电力营销稽查业务特征
电力营销管理中,营销稽查的业务主要有5个方面。 1)业扩报装稽查
电力业扩报装是供电企业的一项重要工作,是供电企业为千家万户传输生产生活所需电力,服务地方经济发展的一项重要工作,也是供电企业增供扩销的主要途径。而业扩报装稽查就是要对整个过程进行监督和检查,反映业扩报装整体工作水平、业扩报装提供服务质量保证情况,以及业扩报装制度是否有效执行等。
2)计量管理稽查
计量管理稽查工作主要包括:监督检查电力用户电能、计量装置中出现的问题以及后期的处理和改造情况;对不同种类的计量装置的计量方式及二次计量情况做检查;监督电力营销过程中重要用户电能计量装置的现场运行技术管理情况等。
3)用电检查稽查
用电检查稽查工作主要包括:监督和检查电力营销中供电合同的签订过程,保障供电合同签订的有效性、规范性;及时发现用户电量和电费异常信息,对电力业务发生变更用户进行监督和稽查等。
4)电价电费稽查
电价电费稽查则包括:监督实际过程中电价的执行情况,检查电费报表和台账核算的正确率,及时发现异常;同时还要检查电费记录人员、抄表人员、复核人员等工作效率。
5)营销制度稽查
营销制度稽查指对电力营销管理中企业内部制度的执行程度,有效性和合理性等进行集成,并且根据发现的问题,及时采取对应措施进行完善,或者提出改善建议。
营销稽查工作实际涵盖许可方面的内容,做好营销稽查工作意义重大,不仅可对整个电力营销业务流程及活动起到监督和督促的作用,还能有效避免出现各种问题,提升企业的营销管理和服务水平,增强企业营销的经济效益。
1.2营销稽查现状及存在问题
由于我国电力营销稽查工作起步较晚,营销稽查体系建设不够成熟和完善,实际工作中,稽查工作人员可利用的手段较为落后,导致工作人员工作量过大,效率不高,营销过程中出现的异常发现不了或不及时的现象时有发生。主要原因则来自两个方面:
1)营销稽查的工作模式
营销稽查从传统的人工排查模式,发展到现有的阀值筛查,虽然工作效率有了很大的提升,但异常发现还是停留在事后监督,很难做到事前预测预警。同时阀值筛查处理方式简单,设置不同的阀值对异常的筛查范围影响很大,阀值设定基本都是靠工作经验设置,实际效果有限。
2)在线稽查的实用水平
在线稽查利用信息化系统,基于阀值筛查手段,对营销过程数据进行实时监控,极大的减少了人员排查的工作量,提高了异常发现率,但受限于系统功能(基于阀值筛查而不是基于数据分析)和时间因素,面对长时间的营销业务稽查或复杂的业务,尤其在防窃、防漏方面,比如10年以上的用户电量电费异常稽查就束手无策,这么长的时间,企业可能已换过多个系统,数据很难汇总分析,几个简单的阀值显然不足以支撑这样的稽查业务需要。
综上所述,要解决当前营销稽查存在的问题,必需引入数据挖掘、智能分析等技术手段,提高信息化的应用水平。
1.3存在的技术挑戰
面对当前营销稽查存在的问题,使用数据挖掘、智能分析等技术已必不可少,市场上也有很多成熟的数据分析平台,但多注重数据分析算法、数据可视化效果展现,对其数据分析根源的目标数据少见好的解决方案,尤其在电力营销行业,分析存在这种情况的原因主要是:
1)数据分析算法、数据可视化效果相对业务来说,比较独立。例如决策树、聚类等分析算法适用很多企业业务,功能实现起来有成熟的理论支撑。
2)而作为数据分析源头的目标数据,不同的行业、不同的企业、不同的管理者等对数据要求都有不同,无法形成统一的数据模式。
因此,我们针对电力营销稽查业务,提出了一种数据融合模型,支持不同数据源的融合,形成单一数据源后执行分析或统计;支持用户按自己的需求选择数据源进行融合,进而执行更高的数据应用。真正实现“自定套餐,自我使用”,相比以前“选择套餐,自我使用”的数据模式有了更高的要求。
2.数据融合模型的构建
2.1数据融合
数据融合也被称作信息融合,是一种多源信息处理技术。它通过对来自同一目标的多源数据进行优化合成,获得比单一信息源更精确、完整的估计或判断。最早应用在军事领域,包括航空目标的探测、识别和跟踪,以及战场监视、战术态势评估等。美国防部三军实验室理事联席会给出的数据融合的定义:指一个对从单个和多个信息源获取的数据和信息进行关联、相关和综合,以获得精确的位置和身份估计,以及对态势和威胁及其重要程度进行全面及时评估的信息处理过程;该过程是对其估计、評估和额外信息源需求评价的一个持续精炼的过程,最终获得结果的改善。
目前,多源数据融合被广泛应用于各研究领域。利用数据融合技术可以将电力营销业务中各种分散的数据,如电表、设备、客户用电、动态事件、地理空间、电网拓扑等数据和电力企业内外各种信息系统数据有机整合做稽查,在分析、处理、挖掘的基础上,提炼出有稽查价值的信息,进而缩小稽查范围,提高问题命中率和准确度,实现营销稽查向智慧型转变。
2.2模型构建
要实现电力营销数据的融合,支撑营销稽查需求,需要建立一套灵活实用的多源数据融合模型,下面提出了一套模型结构,给出了模型冲突及解决方法,并详细阐述了融合过程。
2.2.1模型结构设计
这是一种基于电力营销稽查业务而设计的一套分层复用的数据融合模型,其结构如下图所示:
该数据融合模型主要有四部分组成:
1)数据接口适配器
是与各类数据库或数据集相连接的接口程序。
2)库表结构管理
在逻辑上将多个数据库或数据集的数据源信息、表结构信息进行结构化存储,并建立库表注册机制,建立表及字段级权限控制,保证数据的有效性和安全性。库表结构管理包括:数据源管理、表信息管理、列信息管理、主外键信息管理、索引信息管理和表间关联信息管理(表与表之间的关联信息)。 3)分层模式映射
分为三层模式映射(如图1中虚线方框所标示),依据库表结构管理一对一自动生成源表级映射,系统依据源表级一对多映射一些重要且常用的分析主题形成系统级映射,用户可依据源表级映射、系统级映射自定义用户级映射,同时用户级映射还可自我复用,这种数据映射关系都将以JSON的格式保存在分析规则库中。
4)数据融合规则生成及解析
提供一种用于记录和描述用户自定义多源数据融合的语义描述,由规则生成和规则解析两部分组成,本模型中用JSON对描述语义进行描述(如下图2示意)。当用户选择数据源、库表、字段信息、以及设置数据筛查条件后,系统自动生成融合规则;当用户执行分析时,系统对融合规则进行解析,转化为标准统一的SQL语句,查询后将数据结果通过可视化组件显示出来。
JSON描述的主要关键信息有:数據源、表代码、列代码、列字段的中文说明、函数、数据类型、关联查询条件等。
2.2.2模型冲突及解决方法
不同的物理数据库系统结构和应用数据结构以及格式之间往往存在较大差异,如不同字段名表示相同意义的数据、相同字段名表示不同意义数据、字段取值类型不一样、其中一个数据表字段可能由另一数据表中多个字段组成等,这些差异会导致模型冲突。如值域、属性定义、表结构冲突、值和属性、值和表以及属性和表冲突等。
针对这类模型冲突问题,可充分利用分层映射模型,源表级映射通过库表结构注册机制的使用,已在逻辑上做了一次数据结构基本信息的整合,包括字段含义、字段类型、字段属性等,用户通过自定义用户级映射,对来自2个及以上数据库或数据集的数据按需进行逻辑整合,为其确定最终每个字段所属的数据类型和属性,最终融合为一个单一汇总的用户级映射规则,最终由语法解析器进行规则分解,形成标准化的SQL语句,将最终的数据结果反馈给用户。
2.2.3数据融合过程
本文构建的分层复用的数据融合模型将数据融合过程作为一套功能,在用户定制数据的过程中实现融合规则的建立,然后再按规则执行数据融合,保证对源数据不做改动,特别适合营销稽查业务特点,发现问题,监督整改,整个模型运行过程描述如下:
1)先利用库表结构注册功能,在逻辑上进行统一的数据管理,用户在进行数据融合之前,通过界面查看数据表、数据字段等信息并选择所需数据信息。
2)用户配置好需要的数据融合规则后,先保存在分析规则库中,并生成规则菜单或作为规则库使用。
3)当需要使用时,选择规则菜单项,系统执行这个规则,由语法解析器进行解析生成标准化的SQL语句提取数据,最后将数据结果返回,生成高级应用。
4)每个用户自定义的规则可复用,作为其它规则的数据来源。
为保证数据融合处理的效率,对一些经常使用的或数据量大的融合分析集可进行预固化,生成建表规则,建立物理表,将数据写入其中,下次直接使用。
3数据融合模型在电力稽查中的应用
3.1应用体系结构设计
为验证数据融合模型的应用效果,基于电力营销稽查业务场景,设计开发了一套多源数据融合统计分析应用,其结构框图如下:
整个应用体系结构,纵向分为外部集成接口和系统应用两部分,横向由下而上分为存储层、计算层和展现层。
应用采用JAVA语言设计,中间件采用weblogic,模型以及集成信息采用JSON格式描述。
其中库表结构管理、数据分层复用融合模型两个核心功能采用基于服务化的设计开发,通过服务化的接口调用方式协调工作,工作效率和稳定性较好。
3.2主要应用功能
系统主要提供库表结构管理、接口配置、接口运行及监控、分析规则库、标准统计、高级统计、库表关系视图、通用数据查看等功能。
其中,标准统计提供通过可视化界面的分析规则生成功能,用户通过鼠标操作即可完成自定义的分析规则生成和修改操作;高级统计则提供编写SQL语句查询数据的功能。两个功能面向不同层次的用户。下图是标准统计的操作界面:
界面左侧依据注册的库表信息,按数据源分类显示,用户选择需要的库表,系统依据映射规则对应解析出表对应的列字段信息,用户再选择需要的列信息(可跨数据源、跨表选择),列信息选择好后,还可继续定义数据分析筛查条件,操作完毕后,填写分析规则名称和所属类别,点击创建规则按钮,系统生成对应的SQL语句,同时以JSON的格式保存在分析规则库中。最后定义一个菜单,关联定义的规则。查看数据时选择菜单,系统通过解析规则对应的JSON,形成标准的SQL语句执行,反馈数据结果,通过图表可视化控件展现数据。
3.3應用层次及效果
以广州供电局电力营销稽查业务为例,稽查人员结合风险分析,利用这套模型建立的数据融合处理平台,通过自主创建融合统计规则,实现缩小稽查范围,精准定位问题的能力,特别针对时间跨度长的高风险问题,比如电费核查及追讨,可轻松整合新旧系统15年来累积数据,便于稽查员查找比对和数据分析挖掘,准确提供整改意见和闭环管理,促进稽查班员从操作型向智慧型班员转变。
4.结语
针对电力营销稽查业务特点,提出了一种多源数据融合模型,并基于电力营销稽查业务场景,设计开发了一套多源数据融合统计分析应用,面对电力行业的多源数据,支持自主定制数据融合规则和营销稽查数据挖掘分析及应用。从实际应用情况来看,大大提高了对历史多源数据的使用水平,挖掘出了很多往常无法发现的异常数据,提高了稽查的工作效能,有较好的推广应用价值。当前,在表间关联关系快速识别算法、数据可视化展现方面的研究还有待加强,有助于进一步优化对历史多源异构数据的利用,发掘更多的数据潜在价值。
参考文献:
[1] WitoldLatwin,LeoMark,NickRoussopoulos.Interoperability of Multiple Autonomous Databases[J] .ACM ComputingSurveys,1990,22(3):267-293. [2] Levy A Y,RajaramanA,Ordille J J.Querying heterogeneous information sources using source descriptions [C] .In 22nd Intl.Conf.on Very Large DataBases(VLDB),Bombay,India,1996:251-262.
[3] Kementsietsidis Anastasios, Arenas Marcelo, ReneeJ. Miller. MappingDatainPeer-to-Peer Systems:Seman-tics andAlgorithmiclssues[C]. SIGMOD2003, SanDiego,CA,2003:9- 12.
[4] 严怀成,黄心汉,王敏.多传感器数据融合技术及其应用[J].传感器与微系统,2005 ,24 (10) :1-4.
YANHuai-cheng, HUANGXin-han, WANGMin.Multi-sensor data fusion technique and its application[J].Journal of Transducer Technolog,2005 ,24 (10) :1-4.
[5] Kang Dazhou. Description Logics for Fuzzy Ontologies on Semantic Web[J]. Journal of Southeast University, 2006, 22(3): 343-347.
[6] Eric Newcomer,Greg Lomow.Understanding SOA with webser-vices[M].北京:電子工業出版社,2006.
[7] 李立博.面向服务的多源异构数据整合平台的设计[J].计算机工程与设计,2011, 32 (1) :141-144.
LILi-bo,Design of service-oriented multi-source heterogeneous data integration platform[J].Computer engineering and Design,2011, 32 (1) :141-144.
[8] 张明华,黄冬梅,熊中敏,等.多源异构海量海洋数据综合管理平台构建研究[J].海洋科学,2012,36(2):110-115.
ZHANG Ming-hua, HUANG Dong-mei, XIONG Zhong-min,et al. Construction of an integrated management platform for multi-dimension heterogeneous and massive ocean data[J].Marine Sciences ,2012,36(2):110-115.
[9] 耿焕同,张明哲,张勇.多源异构数据的多维决策分析与可视化方法[J].信息技术,2013,11:49-53.
GENG Huan-tong,ZHANG Ming-zhe,ZHANG Yong.A multi-dimensional decision-making analysis and visualization method for solving multi-source and heterogeneous datasets[J] .Information Technology,2013,11:49-53.
[10] 马茜,谷峪,张天成,等.一种基于数据质量的异构多源多模态感知数据获取方法[J].计算机学报,2013, 36 (10):2120-2131.
Ma Qian,Gu Yu,ZHANG Tian-Cheng,et al. A Heterogeneous Mulit-Source Multi-Mode Sensory Data Acquisition Method Based on Data Quality[J] .Chinese Journal of Computers,2013, 36 (10):2120-2131.
[11] 季玲玲,国辉,胡红,等.基于航空平台的多源数据处理系统[J].计算机应用,2014,34(S1):40-42.
JI Lingling,GUO Hui,HU Hong,et al. Multi-source data processing system based on aerial platform[J].Journal of Computer Applications,2014,34(S1):40-42.
[12] 石宇,詹明,尹璐,等.面向对象的多源异构数据关联组织与分析[J].测绘通报,2015 (1) :102-104
SHI Yu,ZHAN Ming,YIN Lu,et al. Research on Associated Orgabization and Analysis of Target-oriented Multi-source Heterogeneous Data[J] .Bulletin of Surveying and Mapping,2015 (1) :102-104
[13] 王荣,张红.数字化油田中多源数据的一体化应用[J].油气田地面工程, 2015 (2):30-31.
Wang Rong,Hong Zhang. Integrated application of multi-source data in Digital Oilfield [J].Oil-Gasfield Surface Engineering, 2015 (2):30-31.
[14] 周爱华,戴江鹏,丁杰,等.面向多源异构电网数据的获取与转换技术研究[J].电力信息与通信技术,2015,13 (7):22-27.
ZHOU Ai-hua,DAI Jiang-peng,DING Jie,et al. Research on Acquisition and Conversion Techniques for Multi-source Heterogeneous Grid Data [J].Electric Power Information and Communication Technology,2015,13 (7):22-27.
[15] 化柏林,李广建.大数据环境下多源信息融合的理论与应用探讨[J].图书情报工作,2015 (16):5-10.
Hua Bolin,Li Guangjian.Discussion on Theory and Application of Mulit-Soure Information Fusion in Big Data Environment[J] .LIBRARY AND INFORMATION SERVICE
[16] 宋杰,谢海宁,杨增辉,等.基于多源异构数据挖掘的配电网故障信息统计分析[J].电力系统保护与控制,2016,44 (3) :141-147.
SONG Jie,XIE Haining,YANG Zenghui,et al. Statistical analysis of the distribution fault based on multiple source and isomerism data mining technolog [J] .Power System Protection and Control,2016,44 (3) :141-147.
作者简介:
伍国英(1978),女,广东广州人。中级经济师,工学学士,从事电力营销稽查管理和系统应用方面的研究工作;潘炜(1987),男,工学本科,工程师,主要从事电力营销稽查系统应用方面的研究工作;陈书弘(1987),男,工学本科,工程师,主要从事电力营销稽查系统应用方面的研究工作。