论文部分内容阅读
近几十年来,计算机数据库的迅速膨胀导致人们被数据的海洋所淹没,人们都知道自己对数据的掌握程度远远赶不上数据升级的速度。在数据量日益突增的同时,伴随的是数据库中大量的数据被忽视,没有得到有效合理的开发和利用,进一步导致隐藏在这些数据后的信息的流失。因此,数据挖掘的产生顺应了当下社会的需求,正是这种需求促进了数据挖掘技术的蓬勃发展。在能源问题和环境问题日益凸显的今天,人们都在寻求清洁高效的可再生新能源来代替地球上储存有限的能源。太阳能是一种可再生的绿色环保能源,它不仅为人类带来了热能,也带来了光能,而人们对光能的利用在一定程度上取决于天然采光的可行程度。天然光的充分利用,对节约人工照明用电所耗费的能源和保护环境有着十分重大的意义。天然采光的主要研究对象是天空亮度分布。为准确研究天空亮度分布,需要大量的光气候实测数据来作数据支撑,如果用传统的数据分析方法对这些数据进行处理,必然满足不了人们的需求。因此,将数据挖掘技术引入到研究天空亮度分布工作中是非常有必要的,对推动建筑采光技术的发展具有十分重大的意义。本文中的光气候数据来自于重庆地区光气候观测站,由于在数据采集过程中,客观因素和人为因素可能会造成原始数据存在数据缺失、格式不规范、数据重复等问题,这样的数据很难用于数据挖掘。为提高后续数据挖掘的质量,本文首先采用数据清理、数据变换等常用的数据预处理技术对光气候数据进行预处理。本文数据挖掘的任务是从大量光气候数据中挖掘出天空分类规律,通过对光气候的实时采样,以CIE一般天空亮度分布标准为依据,能快速准确地识别出当前天空类型,然后运用CIE标准中的亮度分布公式,计算出天空亮度分布值,从而为天然光的合理开发利用提供一定的理论依据。本文结合光气候数据特征和各分类算法的特性,选择神经网络分类算法对光气候数据进行分类。在以上过程中,本文强调专家意见和实际应用的有效结合,从而对数据进行更准确更有针对性的处理。通过实验表明,本文提出的数据预处理方法能够合理有效地提高光气候数据的质量,从而提高后续数据挖掘结果的可信性;本文提出的基于神经网络的光气候数据分类模型,实验结果表明由BP网络构建的分类模型给出了参考天空分类的一个定量分析的依据,为天空亮度分布规律研究提供了一定的理论支持。