论文部分内容阅读
摘 要:FAST馈源支撑系统结构复杂,对其进行动态监测意义深远。结合FAST动态监测数据的内容和特点,说明了采用数据挖掘的必要性和优越性,构建FAST动态监测的数据挖掘框架,并对组成框架中的一些关键技术问题进行探讨。
关键词:FAST;动态监测;数据挖掘;智能评估
中图分类号:TP 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.011
0 引言
500m口径射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,简称FAST)是我国在建的世界上最大的单口径射电天文望远镜[1]。FAST动态监测是通过对FAST结构的运行状态进行监测,分析评估其使用寿命,为FAST的安全营运提供科学决策。数据挖掘(Data Mining,简称DM)是包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术的一门交叉学科,从海量的实际应用数据中提取隐含的、未知的、潜在有用的信息和知识的过程,是一类深层次的数据分析方法。
1 FAST
FAST(如图1)组成结构复杂,在长期使用过程中,受到自然环境以及各种人为因素的作用,导致关键部件结构不同程度的损伤。这些损伤若不能及时得到检测和维修,严重时会导致结构的破坏。因此,为保证FAST的安全性、适用性和耐久性,建立行之有效的动态监测系统,显得尤为重要。
FAST动态监测在运行过程中,会产生海量的数据,通过对这些历史数据进行分析,可以发现和挖掘潜在的有用信息,使决策者很快地对有关的情况做出准确的评估,并为制订计划、确定发展规划提供依据。数据挖掘的目的就是从实际的海量数据源中发现知识,采用和发展有关的理论、方法和工具来提取有用的和人们感兴趣的知识和模式[2]。因此,应用数据挖掘技术,构建FAST动态监测信息的数据挖掘应用平台,将有利于进一步分析提取FAST的状态信息,及时分析其安全状况,为相关决策提供依据和支持。
1.1 馈源支撑系统的动态监测
FAST馈源支撑系统,由6座高度在107~168m的范围内、均匀分布在直径为600m的圆周上的支撑塔支撑6根柔性钢索拖动重约30T的馈源舱在150m高空、200m范围内做天文跟踪运动,同时舱内A、B轴机构及Stewart并联机器人再对接收机进行位置精调,要求FAST馈源实时定位精度优于10mm,实现望远镜接收机的高精度定位,这是极具挑战性的难题。馈源支撑系统跨度大、分布广,若在运行过程中出现故障,严重情况下甚至会造成结构的破坏,发生灾难性的事件。因此,对馈源支撑系统进行动态监测,势在必行。
动态监测主要对正常环境下运营时馈源支撑系统结构的物理与力学状态、附属设施的工作状态及关键部件的实时图像和信息等进行监测,根据监测信息,对结构的运行状态进行评估,当结构处于特殊气候下或运营状况异常时发出报警信号,为管理决策和结构的维护提供依据。动态监测由四部分组成,如图2所示:
Fig.2 Composition of the dynamic monitoring system
首先,传感器模块将反映FAST馈源支撑系统特性的信号发送到各数据采集单元,通过数据采集单元对信号进行调理、滤波、A/D转换以及简单的统计处理,然后将信号通过系统主干光纤网络传输给数据处理与控制服务器,分析控制服务器对所有信号进行收集、处理、分析、融合、显示、归档和存储后,最后将这些经过处理和分析的数据发送到控制室内的服务器进行健康状况评估,生成监测与评估报告。
1.2 数据特点
动态监测系统在运行过程中,数据来源主要有三个方面:(1)基础数据、设计数据。基础数据是在FAST设计之前由直接观测和调查得到的第一手资料,未经任何加工处理,包括FAST的基本资料、所处环境的地形、地貌等。设计数据指通过分析处理得到的可供FAST设计使用的数据,包括FAST的几何坐标、设计图纸等;(2)监测数据。监测数据主要包括荷载监测数据和响应监测数据。荷载监测数据指作用在馈源支撑系统结构上的风荷载、温度载荷。响应监测数据主要指索力、加速度、位移等;(3)分析数据。分析数据指FAST建成后,定期采用比较先进和可靠的分析方法,对监测数据进行分析而产生的新的数据。它随着时间的推移,分析方法的不同而变化,可与设计数据形成对比。直接或间接为安全评定系统和相关管理部门提供决策依据。
针对馈源支撑系统的特点,其数据具备以下特点:(1)数据类型繁杂、存储量巨大。馈源支撑系统监测量众多,传感器数量多,要求定期连续采集的数据量大;(2)数据精度高、变化快。动态监测的对象是动态发展变化的,其监测数据随着监测对象的不断变化而变化的。数据挖掘是一个动态的积累过程,数据量越来越大,越能准确地反应FAST运动的可靠度;(3)数据实时分析运算复杂。馈源支撑系统工作时,钢索内力及其它各种状态具有实时性,要求动态监测具有快速的数据分析处理能力。
2 数据挖掘
2.1 数据挖掘过程
数据挖掘是一种分析和决策手段,主要根据人工智能、机器学习、统计学原理等,以数据仓库为基础,分析和挖掘历史数据,找出隐藏在这些数据内的关系模式,反映数据的内在特性,对数据所包含的信息做更高层次的抽象[3]。利用已建立的数据仓库来提供丰富的数据资源进行挖掘,其处理过程主要包括以下步骤:
(l)数据选取。根据用户的要求从数据库中提取与数据挖掘相关的数据,数据挖掘将主要从这些数据中提取知识。在此过程中,会利用数据库操作对数据进行处理,形成真实数据库。
(2)数据预处理。主要是对第一步产生的数据进行再加工,检查数据的完整性及一致性,对其中的噪音数据进行处理,对丢失的数据利用统计方法或者其他方法进行填补,形成挖掘数据库。 (3)确定数据挖掘的目标。根据用户的要求,明确数据挖掘要发现何种知识。因为对数据挖掘的不同要求会导致在具体的知识发现过程采用不同的知识发现算法。
2.2 数据挖掘常用方法
为了完成挖掘任务,人们从统计学、人工智能和数据库等领域借用基础研究成和工具,提出了多种方法。主要的数据挖掘方法有如下几种:
2.2.1传统的统计分析
包括相关分析、回归分析及因子分析等。先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索过程中,用户需要重复进行一系列操作。
2.2.2 人工神经网络
人工神经网络(Neural Network)由许多并行运算的简单单元组成网络系统,这些单元类似于生物神经元系统的神经元,是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。人工神经网络系统具有集体运算的能力和自适应的学习能力。此外,它还具有很强的容错性和鲁棒性,善于联想、综合和推广[4]。
2.2.3 遗传算法
遗传算法GA(Genetic Algorithms) 是一类借鉴生物自然选择和自然遗传机制的随机化搜索算法,它将问题的求解表示成“染色体”,从而构成一个“染色体”群。将它们置于问题的“环境”中,通过选择(reproduction) 、交叉(crossover) 、变异(mutation) 操作产生新的一代更适应环境的“染色体”群,如此循环往复,使群体中最优个体的适应度和平均适应度不断提高,直至最优个体的适应度达到某一限值或最优个体的适应度和群体的平均适应度均不再提高,则迭代过程结束[5]。
2.2.4 近邻方法
近邻方法即在一组历史数据记录中寻找一个或若干个与当前记录最相似的历史记录,并利用这些相似历史记录的已知特征值来预测当前记录的未知或遗失记录值。一个包含n个特征的历史记录可以视为一个n维特征向量,即每个记录都是n维特征向量空间中的一个点,寻找最相似历史记录的方法是:对历史上的每个记录计算它与当前记录之间的距离,距离最近的点就是最近邻。如果要对当前记录进行某种处理(如预测未知特征值),就可以参照历史上对相似记录的处理方法来处理或预测。计算点间的距离一般采用欧式距离,也可以根据特征的权重不同计算加权距离。近邻算法的一个常用变种是K-NN方法。即找出K(K≥1)个最相似的点,然后对这K个点的结果进行综合。
2.2.5 决策树
决策树是一种有效的分析方法,通过分析训练集中的数据对类建立分类模型。然后利用这个分类模型,把动态监测智能评估模块数据库中的数据项映射到给定类别中。树越小则树的预测能力越强,所以应构造尽可能小的决策树,关键在于选择恰当属性。属性选择依赖于各种对例子子集的不纯度度量方法,通过对信息增益的计算来选择好的属性, 一般选用 J.Ross Quinlan提出的ID3算法作为测试属性选择的度量标准。用bagging法和boosting法来提高分类法的准确率评估。采用信息增益率判别方法做连续属性的离散化处理,为属性的每个可能值赋予一个概率来处理缺少属性值,用先剪枝法和后剪枝法树剪枝与避免过度拟合。
2.2.6 支持向量机
支持向量机建立在计算学习理论的结构风险最小化原则之上。其主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。它的一个重要优点是可以处理线性不可分的情况。
除上述方法外,规则归纳、公式推理、粗糙集等许多其它方法也经常用于数据挖掘技术中。复杂的数据挖掘系统通常采用多种数据挖掘技术,或是综合各种方法技术优点的有效的、集成的技术。
3 FAST动态监测数据挖掘平台的功能
馈源支撑系统动态监测的数据挖掘平台,主要实现如下功能:
(1)原始数据采集管理功能。数据挖掘的基础就是基于大量的历史数据,该系统能够进行原始数据的管理功能,包括基础数据的增加、修改、删除以及导入导出等。特别是对于监测过程中的海量时间序列数据,通过相关算法进行快速的数据浓缩,可达到实时数据预处理的要求。
(2)模型管理功能。能够对问题求解模型的管理,集成聚类分析、分类分析、回归分析、主元分析、关联分析、时间序列分析等所有主流的数据挖掘算法构件,能够增加、修改、删除各求解模型,包括对模型进行说明并指定相应算法、设置模型的输人和输出变量、设置模型的表达式[6]。
(3)数据挖掘管理功能。可通过用户组态完成各种复杂的数据挖掘任务,依据从数据仓库中所获取的数据,选择相关的挖掘模型和挖掘方法,对于挖掘算法进行统一管理,为用户自定义算法提供良好界面,实现对于挖掘结果的展示、解释与评价,用户更加直观地审视所得模式或知识。
(4)在线监测报警管理。基于监测预警数据挖掘模型和方法,利用实时监测数据实现FAST运行安全的及时预警,并提供相关知识信息。
(5)系统管理。系统维护和管理人员负责对整个系统的日常维护和管理,特别是负责数据库管理和系统管理工作,如设定数据库和系统用户权限、查看用户或系统提交的错误上报意见和建议、及时反馈系统运行问题等。
4 FAST动态监测数据挖掘平台的框架
FAST动态监测系统的正常运行,需要监测人员、数据管理人员、数据分析人员、安全评判人员及决策人员等不同专业的人员密切配合[7]。动态监测系统的数据挖掘应用平台基于上述各人员分工,结合监测系统数据挖掘平台的功能和实际情况,设计挖掘平台构成框架如图3所示。
图3中的平台构架主要是根据数据挖掘技术构建的功能较全面的动态监测系统,其它的组成部分和辅助功能可在此基础上扩展。数据挖掘平台构架引入了数据仓库技术,最大限度地考虑了数据质量问题。 4.1 数据层
数据层主要完成监测数据采集、数据处理和数据集中式存储。各类传感器的自动监测系统进行数据的采集和处理并存入数据库中。由于FAST动态监测系统监测项目较多,所选用的传感器种类众多,仪器厂商提供的数据存储形式也大相径庭,因此需对原始的监测数据进行大量的处理工作。为减少任务层数据处理的工作量,在构架中加入操作数据存储(Operational Data Stores,ODS)构件,数据在进入ODS前需进行整编、规则过滤。数据整编和规则过滤工具集集成到ODS系统中,由ODS系统统一管理。这样的结构也便于向网络方向扩展,动态监测系统的任务层和数据源可实现分离,建立ODS同数据仓库间的数据映射关系即可。
4.2 任务层
任务层包括两个主体:一个主体是数据仓库(Data Warehouse,简称DW)和数据挖掘,它从数据库、数据仓库中提取有用的信息和知识,这些信息和知识反映了大量数据内在的规律和知识,数据挖掘过程和结果既可以作为新的信息存放于数据仓库,又可以作为过程性知识存放于挖掘案例库,作为知识管理中的案例知识进行调用;另一个主体是知识库系统与模型库系统,它为决策问题提供定性分析(知识推理)和定量分析(模型计算)相结合的辅助决策信息,对模型库进行扩充,包括数据挖掘模型及其算法,为数据分析提供模型管理功能,把数据挖掘和分析后的信息作为过程性知识在知识库系统中加以利用,提高系统的知识推理能力。这两个主体的结合,能为各级决策者进行科学决策提供更强的辅助手段。在FAST动态监测任务层引入DW技术,有效管理和利用监测信息,构建数据挖掘应用的分析型数据环境。通常,DW中的数据已经过数据清洗、数据变换、数据集成等数据预处理操作,数据的完整性和一致性较好。数据仓库中的数据相对于其它数据源中的数据,质量更高,来源广泛,FAST动态监测信息的数据挖掘应用平台构架完整性好,高质量的数据是DM成功的前提条件。所以,DW有助于DM的成功实践。此外,将DW和DM协同工作,则可以简化DM过程的某些步骤,提高DM的效率,系统整体结构性好。数据仓库中的在线分析处理(On-Line Analytical Processing,OLAP)功能可以快速、方便地实现查询等功能,也可以有效地辅助数据挖掘工作的开展。
FAST动态监测任务层将要分析的监测信息从数据源中提取,经过数据预处理工具(ECTL)处理后存储到数据仓库,从数据仓库中,提取数据挖掘工具需要的数据集市,数据集市中的监测数据一部分被数据挖掘算法所用,一部分留用模式评价。针对解决的具体专业问题,合理地从数据挖掘算法库中选用一个或几个数据挖掘算法,对监测信息进行训练,测试后形成模式;模式被评价为有用后,便形成知识。如模式不合理、无效或需要更高一级的模式,可反复前面的过程。值得说明的是,由于前面的挖掘过程可很好地指导后面的数据挖掘算法的进行,进而形成了一个循环上升的知识获取过程,知识的可信性和可利用性变得更好,价值也更大。
4.3 应用层
应用层是用户与计算机的接口,在操作者、模型库、知识库之间传递命令和数据。首先,用户接口应能接收并理解用户用自然语言表达的用户问题,然后将用户问题转换为系统可以理解的形式。第二,用户接口应将系统求得的结果转换为自然语言或决策熟悉的形式,如图形、表格、推理结论和依据等。第三,在运算和决策过程中可提示用户并能接收补充信息,用户可随时中断决策过程。第四,用户接口应向用户提供决策过程,包括采用的模型、参数、方法、推理过程等。第五,针对开发者而言用户接口还要提供领域专家或知识工程师对整个系统进行维护的功能,包括新模型的输入、临时性的局部性的模型修改和知识库的维护等。
4.4 远程管理
FAST动态监测信息的数据挖掘平台构架采用网络方式,在异地实施,构成一个三层体系结构。多层分布式数据库模式,其基本思想是将用户界面同企业逻辑分离,把数据库应用程序合理地分块并分布在独立的计算机中,以提高系统的扩展性。
网络式的动态监测信息数据挖掘应用平台,首先可实现监测数据源与挖掘应用平台的分离[8]。数据挖掘算法处理的对象是数据预处理后的数据集市,来源于监测信息数据仓库。监测信息数据仓库、不同于事务处理用的一般数据库,其中的数据通常采用不定期的方式更新,很少实时更新,这给FAST监测信息通过网络方式传输,并处理加载到监测信息数据仓库提供了充足的时间;其次,可实现监测信息挖掘应用平台与终端用户的分离,即多个客户端可同时连接到监测信息数据挖掘应用平台。数据挖掘算法对探索型数据集市进行训练和测试后,异地的专家可通过网络方式看到经过数据挖掘算法得到的模式或知识,对其进行评判,了解FAST状态性态。FAST动态监测信息的数据挖掘应用平台构架灵活性强,容易向网络方向扩展,顺应动态监测系统的发展趋势。
5 结语
从FAST动态监测系统的功能出发,结合动态监测数据内容和特点,在充分认识数据挖掘技术如何处理和应用的基础上,构建了动态监测信息的数据挖掘系统框架,框架由数据层、任务层、监测信息应用层和远程管理等组成。该系统框架将监测信息的数据挖掘、安全预警和知识库系统结合,综合利用监测数据和相关信息,挖掘数据背后的规律,FAST动态监测的系统安全预警、系统故障诊断和系统安全评价等决策提供了技术手段和依据。
参考文献
[1]NAN Rendong. Five hundred meter aperture spherical radio telescope(FAST)[J].Science GPhysics Mechanics&Astronomy,2006,49(2):129~148.
[2]章兢.数据挖掘算法及其工程应用[M].北京:机械工业出版社,2006.
ZHANG J. Data mining algorithm and its application in Engineering[M].Beijing:Machinery Industry Press,2006 [3]刘新亮,姜同强,左敏等.数据仓库与数据挖掘技术在矿山信息化中的应用[J].金属矿山,2009,392(2): 121-123.
LIU X L,JIANG T Q,ZUO M etc. Application of data warehouse and data mining technology in the mine informatization[J].Metal Mine, 2009, 392(2): 121-123.
[4]安淑芝.数据仓库与数据挖掘[M].北京:清华大学出版社,2005.
An S Z. Data warehouse and data mining[M].Beijing: Tsinghua University press,2005.
[5]柳旭,祁耀斌.数据挖掘在桥梁健康监测智能评估系统中的应用[J].2006,22(8):30-32.
LIU X,QI Y B. Application of data mining in the bridge health monitoring and intelligent assessment system[J].2006, 22(8):30-32.
[6]陈永锋,谢小明.矿山安全生产监测系统模型研究[J].金属矿山,2006,356(2):69-71.
CHEN Y F,XIE X M. Study on mine safety production monitoring system[J]. Metal Mine, 2006,356(2):69-71.
[7]李春民,王云海,张兴凯.矿山安全监测数据挖掘系统框架研究[J].金属矿山,2009,402(12):126-130.
LI C M,WANG Y H,ZHANG X K. Study on safety monitoring data of mine mining system framework[J]. Metal Mine, 2009,402(12):126-130.
[8]卢兆辉.大坝安全监测信息的数据挖掘应用平台技术研究[D].南京:河海大学,2005.
LU Z H. Research on application platform of technology of dam safety monitoring information data mining[D]. Nanjing: HoHai University.2005.
关键词:FAST;动态监测;数据挖掘;智能评估
中图分类号:TP 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.011
0 引言
500m口径射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,简称FAST)是我国在建的世界上最大的单口径射电天文望远镜[1]。FAST动态监测是通过对FAST结构的运行状态进行监测,分析评估其使用寿命,为FAST的安全营运提供科学决策。数据挖掘(Data Mining,简称DM)是包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术的一门交叉学科,从海量的实际应用数据中提取隐含的、未知的、潜在有用的信息和知识的过程,是一类深层次的数据分析方法。
1 FAST
FAST(如图1)组成结构复杂,在长期使用过程中,受到自然环境以及各种人为因素的作用,导致关键部件结构不同程度的损伤。这些损伤若不能及时得到检测和维修,严重时会导致结构的破坏。因此,为保证FAST的安全性、适用性和耐久性,建立行之有效的动态监测系统,显得尤为重要。
FAST动态监测在运行过程中,会产生海量的数据,通过对这些历史数据进行分析,可以发现和挖掘潜在的有用信息,使决策者很快地对有关的情况做出准确的评估,并为制订计划、确定发展规划提供依据。数据挖掘的目的就是从实际的海量数据源中发现知识,采用和发展有关的理论、方法和工具来提取有用的和人们感兴趣的知识和模式[2]。因此,应用数据挖掘技术,构建FAST动态监测信息的数据挖掘应用平台,将有利于进一步分析提取FAST的状态信息,及时分析其安全状况,为相关决策提供依据和支持。
1.1 馈源支撑系统的动态监测
FAST馈源支撑系统,由6座高度在107~168m的范围内、均匀分布在直径为600m的圆周上的支撑塔支撑6根柔性钢索拖动重约30T的馈源舱在150m高空、200m范围内做天文跟踪运动,同时舱内A、B轴机构及Stewart并联机器人再对接收机进行位置精调,要求FAST馈源实时定位精度优于10mm,实现望远镜接收机的高精度定位,这是极具挑战性的难题。馈源支撑系统跨度大、分布广,若在运行过程中出现故障,严重情况下甚至会造成结构的破坏,发生灾难性的事件。因此,对馈源支撑系统进行动态监测,势在必行。
动态监测主要对正常环境下运营时馈源支撑系统结构的物理与力学状态、附属设施的工作状态及关键部件的实时图像和信息等进行监测,根据监测信息,对结构的运行状态进行评估,当结构处于特殊气候下或运营状况异常时发出报警信号,为管理决策和结构的维护提供依据。动态监测由四部分组成,如图2所示:
Fig.2 Composition of the dynamic monitoring system
首先,传感器模块将反映FAST馈源支撑系统特性的信号发送到各数据采集单元,通过数据采集单元对信号进行调理、滤波、A/D转换以及简单的统计处理,然后将信号通过系统主干光纤网络传输给数据处理与控制服务器,分析控制服务器对所有信号进行收集、处理、分析、融合、显示、归档和存储后,最后将这些经过处理和分析的数据发送到控制室内的服务器进行健康状况评估,生成监测与评估报告。
1.2 数据特点
动态监测系统在运行过程中,数据来源主要有三个方面:(1)基础数据、设计数据。基础数据是在FAST设计之前由直接观测和调查得到的第一手资料,未经任何加工处理,包括FAST的基本资料、所处环境的地形、地貌等。设计数据指通过分析处理得到的可供FAST设计使用的数据,包括FAST的几何坐标、设计图纸等;(2)监测数据。监测数据主要包括荷载监测数据和响应监测数据。荷载监测数据指作用在馈源支撑系统结构上的风荷载、温度载荷。响应监测数据主要指索力、加速度、位移等;(3)分析数据。分析数据指FAST建成后,定期采用比较先进和可靠的分析方法,对监测数据进行分析而产生的新的数据。它随着时间的推移,分析方法的不同而变化,可与设计数据形成对比。直接或间接为安全评定系统和相关管理部门提供决策依据。
针对馈源支撑系统的特点,其数据具备以下特点:(1)数据类型繁杂、存储量巨大。馈源支撑系统监测量众多,传感器数量多,要求定期连续采集的数据量大;(2)数据精度高、变化快。动态监测的对象是动态发展变化的,其监测数据随着监测对象的不断变化而变化的。数据挖掘是一个动态的积累过程,数据量越来越大,越能准确地反应FAST运动的可靠度;(3)数据实时分析运算复杂。馈源支撑系统工作时,钢索内力及其它各种状态具有实时性,要求动态监测具有快速的数据分析处理能力。
2 数据挖掘
2.1 数据挖掘过程
数据挖掘是一种分析和决策手段,主要根据人工智能、机器学习、统计学原理等,以数据仓库为基础,分析和挖掘历史数据,找出隐藏在这些数据内的关系模式,反映数据的内在特性,对数据所包含的信息做更高层次的抽象[3]。利用已建立的数据仓库来提供丰富的数据资源进行挖掘,其处理过程主要包括以下步骤:
(l)数据选取。根据用户的要求从数据库中提取与数据挖掘相关的数据,数据挖掘将主要从这些数据中提取知识。在此过程中,会利用数据库操作对数据进行处理,形成真实数据库。
(2)数据预处理。主要是对第一步产生的数据进行再加工,检查数据的完整性及一致性,对其中的噪音数据进行处理,对丢失的数据利用统计方法或者其他方法进行填补,形成挖掘数据库。 (3)确定数据挖掘的目标。根据用户的要求,明确数据挖掘要发现何种知识。因为对数据挖掘的不同要求会导致在具体的知识发现过程采用不同的知识发现算法。
2.2 数据挖掘常用方法
为了完成挖掘任务,人们从统计学、人工智能和数据库等领域借用基础研究成和工具,提出了多种方法。主要的数据挖掘方法有如下几种:
2.2.1传统的统计分析
包括相关分析、回归分析及因子分析等。先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索过程中,用户需要重复进行一系列操作。
2.2.2 人工神经网络
人工神经网络(Neural Network)由许多并行运算的简单单元组成网络系统,这些单元类似于生物神经元系统的神经元,是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。人工神经网络系统具有集体运算的能力和自适应的学习能力。此外,它还具有很强的容错性和鲁棒性,善于联想、综合和推广[4]。
2.2.3 遗传算法
遗传算法GA(Genetic Algorithms) 是一类借鉴生物自然选择和自然遗传机制的随机化搜索算法,它将问题的求解表示成“染色体”,从而构成一个“染色体”群。将它们置于问题的“环境”中,通过选择(reproduction) 、交叉(crossover) 、变异(mutation) 操作产生新的一代更适应环境的“染色体”群,如此循环往复,使群体中最优个体的适应度和平均适应度不断提高,直至最优个体的适应度达到某一限值或最优个体的适应度和群体的平均适应度均不再提高,则迭代过程结束[5]。
2.2.4 近邻方法
近邻方法即在一组历史数据记录中寻找一个或若干个与当前记录最相似的历史记录,并利用这些相似历史记录的已知特征值来预测当前记录的未知或遗失记录值。一个包含n个特征的历史记录可以视为一个n维特征向量,即每个记录都是n维特征向量空间中的一个点,寻找最相似历史记录的方法是:对历史上的每个记录计算它与当前记录之间的距离,距离最近的点就是最近邻。如果要对当前记录进行某种处理(如预测未知特征值),就可以参照历史上对相似记录的处理方法来处理或预测。计算点间的距离一般采用欧式距离,也可以根据特征的权重不同计算加权距离。近邻算法的一个常用变种是K-NN方法。即找出K(K≥1)个最相似的点,然后对这K个点的结果进行综合。
2.2.5 决策树
决策树是一种有效的分析方法,通过分析训练集中的数据对类建立分类模型。然后利用这个分类模型,把动态监测智能评估模块数据库中的数据项映射到给定类别中。树越小则树的预测能力越强,所以应构造尽可能小的决策树,关键在于选择恰当属性。属性选择依赖于各种对例子子集的不纯度度量方法,通过对信息增益的计算来选择好的属性, 一般选用 J.Ross Quinlan提出的ID3算法作为测试属性选择的度量标准。用bagging法和boosting法来提高分类法的准确率评估。采用信息增益率判别方法做连续属性的离散化处理,为属性的每个可能值赋予一个概率来处理缺少属性值,用先剪枝法和后剪枝法树剪枝与避免过度拟合。
2.2.6 支持向量机
支持向量机建立在计算学习理论的结构风险最小化原则之上。其主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。它的一个重要优点是可以处理线性不可分的情况。
除上述方法外,规则归纳、公式推理、粗糙集等许多其它方法也经常用于数据挖掘技术中。复杂的数据挖掘系统通常采用多种数据挖掘技术,或是综合各种方法技术优点的有效的、集成的技术。
3 FAST动态监测数据挖掘平台的功能
馈源支撑系统动态监测的数据挖掘平台,主要实现如下功能:
(1)原始数据采集管理功能。数据挖掘的基础就是基于大量的历史数据,该系统能够进行原始数据的管理功能,包括基础数据的增加、修改、删除以及导入导出等。特别是对于监测过程中的海量时间序列数据,通过相关算法进行快速的数据浓缩,可达到实时数据预处理的要求。
(2)模型管理功能。能够对问题求解模型的管理,集成聚类分析、分类分析、回归分析、主元分析、关联分析、时间序列分析等所有主流的数据挖掘算法构件,能够增加、修改、删除各求解模型,包括对模型进行说明并指定相应算法、设置模型的输人和输出变量、设置模型的表达式[6]。
(3)数据挖掘管理功能。可通过用户组态完成各种复杂的数据挖掘任务,依据从数据仓库中所获取的数据,选择相关的挖掘模型和挖掘方法,对于挖掘算法进行统一管理,为用户自定义算法提供良好界面,实现对于挖掘结果的展示、解释与评价,用户更加直观地审视所得模式或知识。
(4)在线监测报警管理。基于监测预警数据挖掘模型和方法,利用实时监测数据实现FAST运行安全的及时预警,并提供相关知识信息。
(5)系统管理。系统维护和管理人员负责对整个系统的日常维护和管理,特别是负责数据库管理和系统管理工作,如设定数据库和系统用户权限、查看用户或系统提交的错误上报意见和建议、及时反馈系统运行问题等。
4 FAST动态监测数据挖掘平台的框架
FAST动态监测系统的正常运行,需要监测人员、数据管理人员、数据分析人员、安全评判人员及决策人员等不同专业的人员密切配合[7]。动态监测系统的数据挖掘应用平台基于上述各人员分工,结合监测系统数据挖掘平台的功能和实际情况,设计挖掘平台构成框架如图3所示。
图3中的平台构架主要是根据数据挖掘技术构建的功能较全面的动态监测系统,其它的组成部分和辅助功能可在此基础上扩展。数据挖掘平台构架引入了数据仓库技术,最大限度地考虑了数据质量问题。 4.1 数据层
数据层主要完成监测数据采集、数据处理和数据集中式存储。各类传感器的自动监测系统进行数据的采集和处理并存入数据库中。由于FAST动态监测系统监测项目较多,所选用的传感器种类众多,仪器厂商提供的数据存储形式也大相径庭,因此需对原始的监测数据进行大量的处理工作。为减少任务层数据处理的工作量,在构架中加入操作数据存储(Operational Data Stores,ODS)构件,数据在进入ODS前需进行整编、规则过滤。数据整编和规则过滤工具集集成到ODS系统中,由ODS系统统一管理。这样的结构也便于向网络方向扩展,动态监测系统的任务层和数据源可实现分离,建立ODS同数据仓库间的数据映射关系即可。
4.2 任务层
任务层包括两个主体:一个主体是数据仓库(Data Warehouse,简称DW)和数据挖掘,它从数据库、数据仓库中提取有用的信息和知识,这些信息和知识反映了大量数据内在的规律和知识,数据挖掘过程和结果既可以作为新的信息存放于数据仓库,又可以作为过程性知识存放于挖掘案例库,作为知识管理中的案例知识进行调用;另一个主体是知识库系统与模型库系统,它为决策问题提供定性分析(知识推理)和定量分析(模型计算)相结合的辅助决策信息,对模型库进行扩充,包括数据挖掘模型及其算法,为数据分析提供模型管理功能,把数据挖掘和分析后的信息作为过程性知识在知识库系统中加以利用,提高系统的知识推理能力。这两个主体的结合,能为各级决策者进行科学决策提供更强的辅助手段。在FAST动态监测任务层引入DW技术,有效管理和利用监测信息,构建数据挖掘应用的分析型数据环境。通常,DW中的数据已经过数据清洗、数据变换、数据集成等数据预处理操作,数据的完整性和一致性较好。数据仓库中的数据相对于其它数据源中的数据,质量更高,来源广泛,FAST动态监测信息的数据挖掘应用平台构架完整性好,高质量的数据是DM成功的前提条件。所以,DW有助于DM的成功实践。此外,将DW和DM协同工作,则可以简化DM过程的某些步骤,提高DM的效率,系统整体结构性好。数据仓库中的在线分析处理(On-Line Analytical Processing,OLAP)功能可以快速、方便地实现查询等功能,也可以有效地辅助数据挖掘工作的开展。
FAST动态监测任务层将要分析的监测信息从数据源中提取,经过数据预处理工具(ECTL)处理后存储到数据仓库,从数据仓库中,提取数据挖掘工具需要的数据集市,数据集市中的监测数据一部分被数据挖掘算法所用,一部分留用模式评价。针对解决的具体专业问题,合理地从数据挖掘算法库中选用一个或几个数据挖掘算法,对监测信息进行训练,测试后形成模式;模式被评价为有用后,便形成知识。如模式不合理、无效或需要更高一级的模式,可反复前面的过程。值得说明的是,由于前面的挖掘过程可很好地指导后面的数据挖掘算法的进行,进而形成了一个循环上升的知识获取过程,知识的可信性和可利用性变得更好,价值也更大。
4.3 应用层
应用层是用户与计算机的接口,在操作者、模型库、知识库之间传递命令和数据。首先,用户接口应能接收并理解用户用自然语言表达的用户问题,然后将用户问题转换为系统可以理解的形式。第二,用户接口应将系统求得的结果转换为自然语言或决策熟悉的形式,如图形、表格、推理结论和依据等。第三,在运算和决策过程中可提示用户并能接收补充信息,用户可随时中断决策过程。第四,用户接口应向用户提供决策过程,包括采用的模型、参数、方法、推理过程等。第五,针对开发者而言用户接口还要提供领域专家或知识工程师对整个系统进行维护的功能,包括新模型的输入、临时性的局部性的模型修改和知识库的维护等。
4.4 远程管理
FAST动态监测信息的数据挖掘平台构架采用网络方式,在异地实施,构成一个三层体系结构。多层分布式数据库模式,其基本思想是将用户界面同企业逻辑分离,把数据库应用程序合理地分块并分布在独立的计算机中,以提高系统的扩展性。
网络式的动态监测信息数据挖掘应用平台,首先可实现监测数据源与挖掘应用平台的分离[8]。数据挖掘算法处理的对象是数据预处理后的数据集市,来源于监测信息数据仓库。监测信息数据仓库、不同于事务处理用的一般数据库,其中的数据通常采用不定期的方式更新,很少实时更新,这给FAST监测信息通过网络方式传输,并处理加载到监测信息数据仓库提供了充足的时间;其次,可实现监测信息挖掘应用平台与终端用户的分离,即多个客户端可同时连接到监测信息数据挖掘应用平台。数据挖掘算法对探索型数据集市进行训练和测试后,异地的专家可通过网络方式看到经过数据挖掘算法得到的模式或知识,对其进行评判,了解FAST状态性态。FAST动态监测信息的数据挖掘应用平台构架灵活性强,容易向网络方向扩展,顺应动态监测系统的发展趋势。
5 结语
从FAST动态监测系统的功能出发,结合动态监测数据内容和特点,在充分认识数据挖掘技术如何处理和应用的基础上,构建了动态监测信息的数据挖掘系统框架,框架由数据层、任务层、监测信息应用层和远程管理等组成。该系统框架将监测信息的数据挖掘、安全预警和知识库系统结合,综合利用监测数据和相关信息,挖掘数据背后的规律,FAST动态监测的系统安全预警、系统故障诊断和系统安全评价等决策提供了技术手段和依据。
参考文献
[1]NAN Rendong. Five hundred meter aperture spherical radio telescope(FAST)[J].Science GPhysics Mechanics&Astronomy,2006,49(2):129~148.
[2]章兢.数据挖掘算法及其工程应用[M].北京:机械工业出版社,2006.
ZHANG J. Data mining algorithm and its application in Engineering[M].Beijing:Machinery Industry Press,2006 [3]刘新亮,姜同强,左敏等.数据仓库与数据挖掘技术在矿山信息化中的应用[J].金属矿山,2009,392(2): 121-123.
LIU X L,JIANG T Q,ZUO M etc. Application of data warehouse and data mining technology in the mine informatization[J].Metal Mine, 2009, 392(2): 121-123.
[4]安淑芝.数据仓库与数据挖掘[M].北京:清华大学出版社,2005.
An S Z. Data warehouse and data mining[M].Beijing: Tsinghua University press,2005.
[5]柳旭,祁耀斌.数据挖掘在桥梁健康监测智能评估系统中的应用[J].2006,22(8):30-32.
LIU X,QI Y B. Application of data mining in the bridge health monitoring and intelligent assessment system[J].2006, 22(8):30-32.
[6]陈永锋,谢小明.矿山安全生产监测系统模型研究[J].金属矿山,2006,356(2):69-71.
CHEN Y F,XIE X M. Study on mine safety production monitoring system[J]. Metal Mine, 2006,356(2):69-71.
[7]李春民,王云海,张兴凯.矿山安全监测数据挖掘系统框架研究[J].金属矿山,2009,402(12):126-130.
LI C M,WANG Y H,ZHANG X K. Study on safety monitoring data of mine mining system framework[J]. Metal Mine, 2009,402(12):126-130.
[8]卢兆辉.大坝安全监测信息的数据挖掘应用平台技术研究[D].南京:河海大学,2005.
LU Z H. Research on application platform of technology of dam safety monitoring information data mining[D]. Nanjing: HoHai University.2005.