论文部分内容阅读
摘 要:电网调度运行业务建设信息化与运行电网的过程中,电力数据系统产生的大部分数据只能被删减或更改,数据之下隐藏的更深层次的关系无法被察觉。本文根据数据挖掘与构建决策分析系统的几个关键技术展开了分析,对基于数据挖掘的电力系统数据分析与决策系统具有参考意义。
关键词:数据挖掘;电网系统数据;决策系统
引言
数据挖掘是发现数据库知识的关键技术,现如今,在国际的研究领域被频繁使用,因为数据挖掘可以将人工智能与数据库技术相融合,在数据库中挖掘出最有用的知识。由于数字化技术在电力系统中被大量使用,各个管理信息系统也随之在电力系统中形成了大量的数据,基于此,我们要对以往的统计分析法进行改进,否则无法对越来越多数据的分析。
1.数据挖掘
1.1数据挖掘的基本原理
作为一种新型的信息处理技术,数据挖掘成为了发现数据库中深层知识的关键技术,所谓数据挖掘,就是在数据庫中汲取出深层次的有利信息的过程。其挖掘的数据是多种多样的,来,我国信息技术飞速发展,数据挖掘作为其中的一个产物,结合了多个学科的知识,包括计算机学、统计学、智能监控、数据库与深度学习等,此外,数据挖掘技术还和可视化技术、信息科学与心理学有所关联[1]。
1.2数据挖掘系统
数据库、知识库、数据库服务器、数据挖掘引擎、挖掘算法及人机交互界面等模块组成在数据挖掘系统中,数据挖掘系统才可以被称为完整,此外,数据挖掘系统中还包括对中间数据的清理、集成与过滤。在事物的设计上,数据库具有储存运行实时数据的功能,在主题设计上,数据仓库具有储存历史数据的功能。如果从数据量上来看,数据库的数据量小于数据仓库。无论是数据库还是数据仓库,二者的服务器都是由一台会多台计算机组成的,其目的是为了形成一个向上的数据接口,将这个接口提供给底层的数据库或数据库群,保证数据库中的数据可以随时被调用。数据挖掘过程中接触到的专业知识与规则、技术人员的经验常识等主要放置在知识库中,在搜索数据的过程中具有辅助的作用。数据挖掘引擎是数据挖掘系统中的重要组成部分,能够将知识库与使用者联系起来。数据挖掘引擎通常由不同的模块组成,这些模块具有不同的功能,可以用来聚类分析、特征化、偏差分析等。使用兴趣程度作为模式评估的标准,能够探索出真正有趣的代表知识的模式[2]。人工智能与计算机的结合能够帮助使用者与数据挖掘系统进行互动,其可视化界面还可以帮助用户查询数据与制定计划,此外,用户还可以通过数据挖掘系统浏览数据系统的实时状态。
2.构建决策电力数据分析系统的几个关键技术
2.1数据的变换与清洗
在数据从业系统或数据来源被提取出来时,应该及时对其进行变换与清洗,然后再将其放置在数据库中,这是数据仓库要遵守的最基本的原则。关于如何将数据变换,可以使用两种方法,分别为手工编程与使用专门的工具对数据进行变换。相比手工编程来说,使用专门的工作相对来说比较容易操作,对人力资源的要求也不高,但这种方法有使用不灵活等缺点。相比专门工具的不灵活性,手工编程较为灵活,但操作复杂,因此在现实的使用过程中,往往将这两种方法相融合,在使用专门的工具转换数据时,增加手工编程的方法。由于这两种方法都是在数据传送的过程中对数据进行变换与清洗,所以通常可以在业务相对不拥挤、服务器使用较轻松的晚间使用。但相对于数据量庞大的OLTP 系统,就需要较长的业务处理时间,这时业余的空闲时间就不能够满足业务处理。业余的空闲时间非常少,我们很难在很短的时间内完成对数据进行汇总计算、备份、传送等,由此可见,在数据传送过程中进行清洗尤为重要,能够大大的影响数据传送的效率。
2.1.1计算列方法:此方法主要针对简单变换
为了不影响数据传送的效率,我们可以在数据传送的过程中,将初始数据直接导入,在数据仓库中构建计算列,对数据进行透明转换。
2.1.2视图法:此方法主要针对清洁和集成
与计算列方法相同,视图法也是在传送的过程中,直接将初始数据导入。在清洁方面,为了构建原始数据与清洁数据的相对关联,我们可以构建一张新的表。在集成方面,可以通过试图将原始数据集成,之后在视图上构建数据立方体。
2.2存储格式的选择
多维 OLAP(MO-LAP)、关系 OLAP(ROLAP)与混合 OLAP(HOLAP)为数据立方体的三种存储方式。现如今,根据相关参考文献中不相同的存储方式对性能的影响,并没有定量的标准,通常只有相对定性的标准。文章中,我们通过实际操作的经验,提供了在不同情况下不同存储格式大致的性能指标[3]。
作为事先计算好的数据汇总,聚合能够改善查询响应时间,并需要其他的存储空间。如果全部预先计算各个维度各个层次的单元值,将这时的聚合空间定义为100 %,此时的查询时间最短,聚合空间最大。如果不对各维度各层次的单元之进行遇见计算,查询时间则最长。聚合百分比=100 *(MAX-CUR)/(MAX-M IN),因此我们可以通过定义性能的提升来定义聚合百分比。
多维存储模式能够让分区的聚合与其源数据的复本以多维结构在分析服务器计算机上被存储。关系存储模式能够让分区的聚合在关系数据库的表中被存储。关系存储模式的查询响应通常情况下要慢与其他两种存储模式。混合存储模式将多维存储模式与关系存储模式进行了结合。总而言之,多维存储模式通过为了缩短查询时间,牺牲了存储空间,关系存储模式为了减少空间,牺牲了查询时间,混合存储模式则折中与这两种存储模式,对二者性能在量化指标的差异不明确。根据实践的经验,文章可以提供一个相近的量化指标:选择一个大约 2G的表,整体上看,多维存储模式所需要的存储空间大于关系存储模式与混合存储模式。当聚合数增高的时候,关系存储模式就需要更大的存储空间,这是因为关系存储模式本身对查询时间没有较高的要求。当对性能要求比较高时,存储额外信息所需要的空间大概接近多维存储模式。同样选择一个大约 2G 的表进行测试,多维存储模式将原始数据导入本地,处理时间就比较短,而在聚合小于 30 %的情况下,关系存储模式的处理时间比多维存储模式短,但处理时间也随着聚合数的增加而不断上升。
结语
构建稳定的电力数据分析系统,可以解决数据来源巨大的问题,电力数据分析系统能够根据不同的数据主题构建不同的数据集合,方便搜索查询,构建决策电力数据分析系统的几个关键技术还将再实践中进一步改善。
参考文献
[1]胡政,柳进,胡林献.电网高峰负荷分析决策平台的设计与实现[J].电网技术,2005(06):58-62.
[2]刘涌,侯志俭,蒋传文.数据仓库技术在配网自动化中的应用[J].华东电力,2005(01):62-64.
[3]杨静.基于数据仓库决策分析的电力系统应用研究[J].微机发展,2002(05):31-33.
关键词:数据挖掘;电网系统数据;决策系统
引言
数据挖掘是发现数据库知识的关键技术,现如今,在国际的研究领域被频繁使用,因为数据挖掘可以将人工智能与数据库技术相融合,在数据库中挖掘出最有用的知识。由于数字化技术在电力系统中被大量使用,各个管理信息系统也随之在电力系统中形成了大量的数据,基于此,我们要对以往的统计分析法进行改进,否则无法对越来越多数据的分析。
1.数据挖掘
1.1数据挖掘的基本原理
作为一种新型的信息处理技术,数据挖掘成为了发现数据库中深层知识的关键技术,所谓数据挖掘,就是在数据庫中汲取出深层次的有利信息的过程。其挖掘的数据是多种多样的,来,我国信息技术飞速发展,数据挖掘作为其中的一个产物,结合了多个学科的知识,包括计算机学、统计学、智能监控、数据库与深度学习等,此外,数据挖掘技术还和可视化技术、信息科学与心理学有所关联[1]。
1.2数据挖掘系统
数据库、知识库、数据库服务器、数据挖掘引擎、挖掘算法及人机交互界面等模块组成在数据挖掘系统中,数据挖掘系统才可以被称为完整,此外,数据挖掘系统中还包括对中间数据的清理、集成与过滤。在事物的设计上,数据库具有储存运行实时数据的功能,在主题设计上,数据仓库具有储存历史数据的功能。如果从数据量上来看,数据库的数据量小于数据仓库。无论是数据库还是数据仓库,二者的服务器都是由一台会多台计算机组成的,其目的是为了形成一个向上的数据接口,将这个接口提供给底层的数据库或数据库群,保证数据库中的数据可以随时被调用。数据挖掘过程中接触到的专业知识与规则、技术人员的经验常识等主要放置在知识库中,在搜索数据的过程中具有辅助的作用。数据挖掘引擎是数据挖掘系统中的重要组成部分,能够将知识库与使用者联系起来。数据挖掘引擎通常由不同的模块组成,这些模块具有不同的功能,可以用来聚类分析、特征化、偏差分析等。使用兴趣程度作为模式评估的标准,能够探索出真正有趣的代表知识的模式[2]。人工智能与计算机的结合能够帮助使用者与数据挖掘系统进行互动,其可视化界面还可以帮助用户查询数据与制定计划,此外,用户还可以通过数据挖掘系统浏览数据系统的实时状态。
2.构建决策电力数据分析系统的几个关键技术
2.1数据的变换与清洗
在数据从业系统或数据来源被提取出来时,应该及时对其进行变换与清洗,然后再将其放置在数据库中,这是数据仓库要遵守的最基本的原则。关于如何将数据变换,可以使用两种方法,分别为手工编程与使用专门的工具对数据进行变换。相比手工编程来说,使用专门的工作相对来说比较容易操作,对人力资源的要求也不高,但这种方法有使用不灵活等缺点。相比专门工具的不灵活性,手工编程较为灵活,但操作复杂,因此在现实的使用过程中,往往将这两种方法相融合,在使用专门的工具转换数据时,增加手工编程的方法。由于这两种方法都是在数据传送的过程中对数据进行变换与清洗,所以通常可以在业务相对不拥挤、服务器使用较轻松的晚间使用。但相对于数据量庞大的OLTP 系统,就需要较长的业务处理时间,这时业余的空闲时间就不能够满足业务处理。业余的空闲时间非常少,我们很难在很短的时间内完成对数据进行汇总计算、备份、传送等,由此可见,在数据传送过程中进行清洗尤为重要,能够大大的影响数据传送的效率。
2.1.1计算列方法:此方法主要针对简单变换
为了不影响数据传送的效率,我们可以在数据传送的过程中,将初始数据直接导入,在数据仓库中构建计算列,对数据进行透明转换。
2.1.2视图法:此方法主要针对清洁和集成
与计算列方法相同,视图法也是在传送的过程中,直接将初始数据导入。在清洁方面,为了构建原始数据与清洁数据的相对关联,我们可以构建一张新的表。在集成方面,可以通过试图将原始数据集成,之后在视图上构建数据立方体。
2.2存储格式的选择
多维 OLAP(MO-LAP)、关系 OLAP(ROLAP)与混合 OLAP(HOLAP)为数据立方体的三种存储方式。现如今,根据相关参考文献中不相同的存储方式对性能的影响,并没有定量的标准,通常只有相对定性的标准。文章中,我们通过实际操作的经验,提供了在不同情况下不同存储格式大致的性能指标[3]。
作为事先计算好的数据汇总,聚合能够改善查询响应时间,并需要其他的存储空间。如果全部预先计算各个维度各个层次的单元值,将这时的聚合空间定义为100 %,此时的查询时间最短,聚合空间最大。如果不对各维度各层次的单元之进行遇见计算,查询时间则最长。聚合百分比=100 *(MAX-CUR)/(MAX-M IN),因此我们可以通过定义性能的提升来定义聚合百分比。
多维存储模式能够让分区的聚合与其源数据的复本以多维结构在分析服务器计算机上被存储。关系存储模式能够让分区的聚合在关系数据库的表中被存储。关系存储模式的查询响应通常情况下要慢与其他两种存储模式。混合存储模式将多维存储模式与关系存储模式进行了结合。总而言之,多维存储模式通过为了缩短查询时间,牺牲了存储空间,关系存储模式为了减少空间,牺牲了查询时间,混合存储模式则折中与这两种存储模式,对二者性能在量化指标的差异不明确。根据实践的经验,文章可以提供一个相近的量化指标:选择一个大约 2G的表,整体上看,多维存储模式所需要的存储空间大于关系存储模式与混合存储模式。当聚合数增高的时候,关系存储模式就需要更大的存储空间,这是因为关系存储模式本身对查询时间没有较高的要求。当对性能要求比较高时,存储额外信息所需要的空间大概接近多维存储模式。同样选择一个大约 2G 的表进行测试,多维存储模式将原始数据导入本地,处理时间就比较短,而在聚合小于 30 %的情况下,关系存储模式的处理时间比多维存储模式短,但处理时间也随着聚合数的增加而不断上升。
结语
构建稳定的电力数据分析系统,可以解决数据来源巨大的问题,电力数据分析系统能够根据不同的数据主题构建不同的数据集合,方便搜索查询,构建决策电力数据分析系统的几个关键技术还将再实践中进一步改善。
参考文献
[1]胡政,柳进,胡林献.电网高峰负荷分析决策平台的设计与实现[J].电网技术,2005(06):58-62.
[2]刘涌,侯志俭,蒋传文.数据仓库技术在配网自动化中的应用[J].华东电力,2005(01):62-64.
[3]杨静.基于数据仓库决策分析的电力系统应用研究[J].微机发展,2002(05):31-33.