【摘 要】
:
针对民用建筑“四节一环保”原始数据中存在的数据质量问题,使用多种方法实现数据清洗与数据修复。数据清洗方面,重点关注单栋建筑能耗数据中存在的相似重复记录及异常记录。
【机 构】
:
北京大学前沿交叉学科研究院大数据科学研究中心,山东科技大学数学与系统科学学院,北京大学数学科学学院
【基金项目】
:
国家重点研发计划(2018YFC0704300)和国家自然科学基金(11901359)资助
论文部分内容阅读
针对民用建筑“四节一环保”原始数据中存在的数据质量问题,使用多种方法实现数据清洗与数据修复。数据清洗方面,重点关注单栋建筑能耗数据中存在的相似重复记录及异常记录。其中,识别异常记录采用3σ准则、DBSCAN聚类算法及箱线图内限3种方法。数据修复方面,重点关注缺失值的填补及基于模型的数据修正。其中,缺失值的填充使用简单填充、线性回归模型和基于用户的协同过滤推荐算法,并以平均绝对误差为评估指标进行对比。基于多元线性回归、主成分回归、偏最小二乘回归、岭回归及Lasso回归5种模型,拟合建筑运行能耗与各解释变量间
其他文献
设计并实现一种适用于多分量监测系统AETA的数据采集系统。该采集系统包括探头数据采集软件、数据处理终端软件和服务器端的应用程序,其中数据处理终端软件为系统的核心,负责接收探头采集的数据,并将其稳定、可靠地传输至服务器端。该采集系统具有自动升级和在线执行命令的功能,可以实现设备的远程运维和维护。测试结果表明, AETA数据采集系统能够在网速低至10 KB的情况下稳定地运行,并能在一分钟内及时地响应远
随着我国经济社会的高速发展,人们环保意识也不断提升,绿色经济已经成为全球共识。而要想实现这一发展目标就需要做好林业资源管理工作,对二者关系有一个正确的认知,并采取科
河长制为区域性环境保护管理制度,如何在流域层面实现联防联控是当前河长制推行的难点与薄弱环节。以长江流域典型跨省河流——赤水河为例,针对赤水河生态环境保护存在的突出