论文部分内容阅读
[摘要]当前,大数据技术应用到我们生产生活的各个领域,通过数据分析,对电力企业的电费风险有效降低起到了很好的作用。
[关键词]大数据;电费风险;数据来源;指标体系;建立
中图分类号:E1 文献标识码:A 文章编号:1009-914X(2018)40-0188-01
1.前言
近来,我们迎来了大数据时代,同时大数据技术在电商、金融等各行各业都获得了优异成果。国家电网在十三五规划中明确指出,运用大数据技术,改革创新出公司新的管理模式和运营模式,全面促进电网发展。
2.电费风险预测数据来源
2.1内部因素
营销管理系统中的用户类型信息包括企业客户、个人客户、集团客户、事业单位客户、社会团体、政府机关、军事单位客户,本文分析范围只针对电费回收风险较大的企业客户进行分析。个人客户由于基数较大、个体风险影响较低,同时事业单位客户、社会团体、政府机关等客户因负有社会责任,受外部因素影响较低。电费信息、业扩信息、稽查信息、用检信息和欠费历史信息均由营销管理系统提供,企业用户信息、业扩信息以及欠费信息均包含企业行业类别信息以及企业基本信息,通过企业信息可进行外部因素关联分析。
2.2外部因素
企业基本信息包括企业名称、经营范围、法人、注册资本、税号等信息,来源于工商管理局系统,同时还需要来源于征信系统的企业法人征信信息,税务局系统的纳税证明信息,银行系统的贷款信息及还款信息,企业经营状况、宏观经济因素(资讯、视频、图片等)以及特定行业影响因素(比如农产品加工企业,需要考虑气候、产能等因素)主要从网络途径获取,考虑外部因素的难度主要在于有效数据的获取和筛查。
3.用电客户电费风险评级体系
3.1确定特征指标
特征指标是指对结果影响程度较大的因素。为了确保选定的指标能够最准确、最客观地反映用电客户的风险情况,需要对客户的各种信息(如客户资信、生产经营状况、支付能力、用电行为、电费结算方式等)进行收集、提炼和归类,并且信息量的大小和数据的准确度对模型的建立有很大的影响。但在实践中,由于相关信息收集难度太大,可以使用的数据主要来源于4方面:供电企业用电管理信息系统中记录的各类数据、客户在银行的信用评级、能够获取到的用电客户自身的相关情况(如企业规模与实力、生产经营状况、企业负责人个人信用情况)以及相关外部情况(国家和地区政策、用电客户所属行业的发展前景、自然风险等)。
3.2确定特征指标权重
指标的权重是指该指标在整个评价体系中的重要性,也就是影响程度的定量评价。确定指标权重的方法主要有两类:一是根据经验和主观判断来确定,如德尔菲法、经验权数法等;二是运用数学方法来确定,如层次分析法等。前一类方法集中了研究人员的经验及专家的知识积累,但不可避免地掺杂着主观性,后一类方法注重客观性,但由于原始数据的搜集、整理及分析上难度较大以及数据提供者的主观性等,也存在不足之处。
3.3建立数学模型
利用数学方法和专业工具对特征指标数据等进行挖掘,将其内在联系最终以数学形式表达出来,即得到了需要的数学模型。数学模型的精确度与基础数据的准确性、样本量的大小等多方面因素相关,需要在实际应用中不断修正,使其预测结果越来越精确。
3.4确定电费风险等级分类
建立了数学模型后,可以对所有用电客户进行定量的打分,并按照得分将其归为某一等级,以便于采取相应的风险控制措施。确定各风险等级区间阈值时,应使各等级的用电客户数量分布尽量合理(总体上应该满足正态分布)。
4.电费风险预测技术
4.1数据采集
目前电力营销管理系统使用传统的关系型数据库存储用电客户、电费、业扩、用检、稽查等数据。企业基本信息、企业法人个人征信、纳税证明信息、银行贷款信息等数据需从工商管理局、银行、征信等专业系统获取,需考虑各系统的数据存储方式及获取方式的多样性。企业经营状况、国家宏观经济环境、区域社会环境等半结构化或非结构化数据主要是借助网络爬虫或网站公开API等方式获取数据。
4.2数据存储
大数据存储是指将大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问。数据库存储管理技术包括分布式存储、NoSQL、内存存储技术。分布式存储通过网络将分散的存储资源构成一个虚拟的存储设备,实现数据的分散存储,典型的如Hadoop平台的分布式文件存储系统(HDFS),主要优势体现在硬件成本低且节点可不断扩展、通过冗余备份实现高容错性。NoSQL数据存储不需要固定的表结构,存取上性能优势明显,但和关系型数据库也不存在连接操作;内存存储技术主要应用于对数据读取、处理响应高的场景。电费预测分析主要是通过用户用电数据与用户征信、企业经营、外部环境进行关联分析,同时对响应要求不高,存储技术首选布式存储。
4.3数据预处理
大数据预处理可以对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等,将那些杂乱无章的数据转化为相对单一且便于处理的构型,为后期的数据分析奠定基础。数据预处理主要包括:数据清理、数据集成、数据转换以及数据规约等部分。数据清理主要工具有ETL,实现数据的抽取、转换、装载;数据集成工具主要有Sqoop,Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。通过数据集成工具可将网络上非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式統一存储。
5.应用场景分析
采集系统数据,经历以下步骤:噪声处理、分析挖掘,最终完成场景展现。电费风险挖掘过程中存在以下三大技术难关:噪声数据处理、业务数据分析、基于距离计算的聚类分析。根据行业的业务需求,需要我们进行数据处理分析:噪声数据和业务数据,在数据筛选的初步阶段,对挖掘出的数据进行计算分析,完成场景的搭建工作。聚类分析的原理是使用欧式距离公式及误差平方,准确地选择聚类中心点,并将其归档分类,区别开已知分类数据和未知分类数据,对未知分类数据不同类型划分。本文使用聚类分析对电费回收数据对比分类:供电单位、行业和电压等级,根据未知分类数据对比出较好、一般和较差3类。重点分析未知分类数据较差类别的部分,找出企业管控部分的弱点,并及时做出调整,做出完善和整改的工作。根据电费回收情况设定场景,包括本文所研究的三大主要电费类型发行、预收和欠费电费,将业务主题划分三大部分:电费发行部分的主题分析,电费预收部分的主题分析和电费欠费部分的主题分析。本文分析内容为每日数据收集量,进而分析出每日的电费回收走势情况;对每月数据收量分析,判断每个月1号至月底电费回收走势趋势。通过对数据采集的来源分析电费回收情况,及时找出和反馈出回收弱点,利用应用场景深入分析风险,制定相应的处理方法措施,达到降低风险,最终实现提升效益的目的。
6.结束语
大数据是信息技术发展的产物,在生产生活中应用广泛。其在电力行业中应用大大降低了电力风险,也为企业创造了更大的经济效益。
参考文献
[1]董运,孟飞.供电企业电费风险防范管理[J].中国工业年鉴,2017(01):36
[2]姜力维.电费风险防范与清欠[M].中国电力出版社,2017(21):17
[3]赖征田.电力大数据-能源互联网时代的电力企业转型与价值创造[M].机械工业出版社,2016
[关键词]大数据;电费风险;数据来源;指标体系;建立
中图分类号:E1 文献标识码:A 文章编号:1009-914X(2018)40-0188-01
1.前言
近来,我们迎来了大数据时代,同时大数据技术在电商、金融等各行各业都获得了优异成果。国家电网在十三五规划中明确指出,运用大数据技术,改革创新出公司新的管理模式和运营模式,全面促进电网发展。
2.电费风险预测数据来源
2.1内部因素
营销管理系统中的用户类型信息包括企业客户、个人客户、集团客户、事业单位客户、社会团体、政府机关、军事单位客户,本文分析范围只针对电费回收风险较大的企业客户进行分析。个人客户由于基数较大、个体风险影响较低,同时事业单位客户、社会团体、政府机关等客户因负有社会责任,受外部因素影响较低。电费信息、业扩信息、稽查信息、用检信息和欠费历史信息均由营销管理系统提供,企业用户信息、业扩信息以及欠费信息均包含企业行业类别信息以及企业基本信息,通过企业信息可进行外部因素关联分析。
2.2外部因素
企业基本信息包括企业名称、经营范围、法人、注册资本、税号等信息,来源于工商管理局系统,同时还需要来源于征信系统的企业法人征信信息,税务局系统的纳税证明信息,银行系统的贷款信息及还款信息,企业经营状况、宏观经济因素(资讯、视频、图片等)以及特定行业影响因素(比如农产品加工企业,需要考虑气候、产能等因素)主要从网络途径获取,考虑外部因素的难度主要在于有效数据的获取和筛查。
3.用电客户电费风险评级体系
3.1确定特征指标
特征指标是指对结果影响程度较大的因素。为了确保选定的指标能够最准确、最客观地反映用电客户的风险情况,需要对客户的各种信息(如客户资信、生产经营状况、支付能力、用电行为、电费结算方式等)进行收集、提炼和归类,并且信息量的大小和数据的准确度对模型的建立有很大的影响。但在实践中,由于相关信息收集难度太大,可以使用的数据主要来源于4方面:供电企业用电管理信息系统中记录的各类数据、客户在银行的信用评级、能够获取到的用电客户自身的相关情况(如企业规模与实力、生产经营状况、企业负责人个人信用情况)以及相关外部情况(国家和地区政策、用电客户所属行业的发展前景、自然风险等)。
3.2确定特征指标权重
指标的权重是指该指标在整个评价体系中的重要性,也就是影响程度的定量评价。确定指标权重的方法主要有两类:一是根据经验和主观判断来确定,如德尔菲法、经验权数法等;二是运用数学方法来确定,如层次分析法等。前一类方法集中了研究人员的经验及专家的知识积累,但不可避免地掺杂着主观性,后一类方法注重客观性,但由于原始数据的搜集、整理及分析上难度较大以及数据提供者的主观性等,也存在不足之处。
3.3建立数学模型
利用数学方法和专业工具对特征指标数据等进行挖掘,将其内在联系最终以数学形式表达出来,即得到了需要的数学模型。数学模型的精确度与基础数据的准确性、样本量的大小等多方面因素相关,需要在实际应用中不断修正,使其预测结果越来越精确。
3.4确定电费风险等级分类
建立了数学模型后,可以对所有用电客户进行定量的打分,并按照得分将其归为某一等级,以便于采取相应的风险控制措施。确定各风险等级区间阈值时,应使各等级的用电客户数量分布尽量合理(总体上应该满足正态分布)。
4.电费风险预测技术
4.1数据采集
目前电力营销管理系统使用传统的关系型数据库存储用电客户、电费、业扩、用检、稽查等数据。企业基本信息、企业法人个人征信、纳税证明信息、银行贷款信息等数据需从工商管理局、银行、征信等专业系统获取,需考虑各系统的数据存储方式及获取方式的多样性。企业经营状况、国家宏观经济环境、区域社会环境等半结构化或非结构化数据主要是借助网络爬虫或网站公开API等方式获取数据。
4.2数据存储
大数据存储是指将大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问。数据库存储管理技术包括分布式存储、NoSQL、内存存储技术。分布式存储通过网络将分散的存储资源构成一个虚拟的存储设备,实现数据的分散存储,典型的如Hadoop平台的分布式文件存储系统(HDFS),主要优势体现在硬件成本低且节点可不断扩展、通过冗余备份实现高容错性。NoSQL数据存储不需要固定的表结构,存取上性能优势明显,但和关系型数据库也不存在连接操作;内存存储技术主要应用于对数据读取、处理响应高的场景。电费预测分析主要是通过用户用电数据与用户征信、企业经营、外部环境进行关联分析,同时对响应要求不高,存储技术首选布式存储。
4.3数据预处理
大数据预处理可以对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等,将那些杂乱无章的数据转化为相对单一且便于处理的构型,为后期的数据分析奠定基础。数据预处理主要包括:数据清理、数据集成、数据转换以及数据规约等部分。数据清理主要工具有ETL,实现数据的抽取、转换、装载;数据集成工具主要有Sqoop,Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。通过数据集成工具可将网络上非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式統一存储。
5.应用场景分析
采集系统数据,经历以下步骤:噪声处理、分析挖掘,最终完成场景展现。电费风险挖掘过程中存在以下三大技术难关:噪声数据处理、业务数据分析、基于距离计算的聚类分析。根据行业的业务需求,需要我们进行数据处理分析:噪声数据和业务数据,在数据筛选的初步阶段,对挖掘出的数据进行计算分析,完成场景的搭建工作。聚类分析的原理是使用欧式距离公式及误差平方,准确地选择聚类中心点,并将其归档分类,区别开已知分类数据和未知分类数据,对未知分类数据不同类型划分。本文使用聚类分析对电费回收数据对比分类:供电单位、行业和电压等级,根据未知分类数据对比出较好、一般和较差3类。重点分析未知分类数据较差类别的部分,找出企业管控部分的弱点,并及时做出调整,做出完善和整改的工作。根据电费回收情况设定场景,包括本文所研究的三大主要电费类型发行、预收和欠费电费,将业务主题划分三大部分:电费发行部分的主题分析,电费预收部分的主题分析和电费欠费部分的主题分析。本文分析内容为每日数据收集量,进而分析出每日的电费回收走势情况;对每月数据收量分析,判断每个月1号至月底电费回收走势趋势。通过对数据采集的来源分析电费回收情况,及时找出和反馈出回收弱点,利用应用场景深入分析风险,制定相应的处理方法措施,达到降低风险,最终实现提升效益的目的。
6.结束语
大数据是信息技术发展的产物,在生产生活中应用广泛。其在电力行业中应用大大降低了电力风险,也为企业创造了更大的经济效益。
参考文献
[1]董运,孟飞.供电企业电费风险防范管理[J].中国工业年鉴,2017(01):36
[2]姜力维.电费风险防范与清欠[M].中国电力出版社,2017(21):17
[3]赖征田.电力大数据-能源互联网时代的电力企业转型与价值创造[M].机械工业出版社,2016