基于大数据的污染源普查清查方法学研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：qfcywm

【摘要】

：

【作者】

：

鹿明

【出处】

：

哈尔滨工业大学

【发表日期】

：

2020年02期

【关键词】

：

污染源普查清查大数据机器学习优化方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了加强对环境污染的监督管理,及时了解及记录各企事业单位潜在的环境污染基本信息,我国于2008年开展了第一次全国污染源普查。在第一次全国污染源普查工作中,囿于我国当时的认识及技术手段和数据分析能力有限,存在许多不足之处。当时在污染源普查清查阶段,政府部门仅根据企业的行业分类代码进行筛选,形成一份基本单位名录作为清查阶段的入户依据。但政府部门数据的不完整以及筛选所用的行业类别代码存在大量错误,致使清查基本单位名录存在相当数量的漏失企业,造成工业污染源基本单位名录不准确。我国第二次污染源普查于2018年开始,因此,本研究希望利用大数据及相关技术,以工商数据中的企业经营范围作为基础,识别并纠正行业类别,同时利用互联网大数据技术对基本单位名录进行增补,最终优化污染源普查清查阶段数据处理流程、提升基本单位名录的构建效率和准确度。首先,本研究对可使用的方法进行比较,对政府部门所提供的数据进行评价和筛选,在海量数据处理的背景下,构建机器学习分类模型。以此为基础,按照机器学习处理实际问题的基本思路,首先构造标准数据集并验证其准确性及可用性,利用多种分类算法进行比较分析,择优使用。随后以此构建的标定数据集为训练集,对政府部门所提供的国家工商数据、省工商数据和市工商数据进行预测分类,同时为保证可靠性,利用清查实际入户反馈及其他补充实验进行准确性检验,最终验证本研究建立的机器学习模型的可用性。针对机器学习的模型建立,我们通过几种算法比较后可知朴素贝叶斯分类算法为最佳算法,且经过清查实际反馈检验显示,若以F₁值（准确率和召回率的调和平均数,F₁值越高,代表分类结果越好）为评价指标进行衡量,各数据集F₁值分别相对提升32.92%,21.42%,14.91%。补充实验所得结果相比于原始政府部门数据集,F₁值分别相对提升151.06%、213.45%和132.13%,提升效果较显著。从而验证了标定数据集的准确性以及该机器学习模型通过企业经营范围识别并纠正错误行业类别的可用性。其次,为进一步使得第二次普查更准确,本研究探讨了利用互联网大数据对于基本单位名录增补的可行性。以互联网多源大数据为基础,通过大数据可用性的一般分析原则对数据进行评价和筛选。利用以上经过验证可用的机器学习分类预测模型,对筛选后的互联网数据进行分类预测。使用清查实际入户反馈及其他补充实验进行准确性检验,并分析数据质量。最终互联网增补数据准确率为17.26%,同市工商数据近似。结合实际工作情况,通过补充实验分析,确定互联网增补数据对于企业基本名录的增补贡献度应在4.54%-16.85%。对所得分类结果进行横向及纵向比较,互联网数据相比部门数据,存在较为明显的同质化现象,且在互联网数据中低比例数据同质化更为明显,这是由于互联网数据对企业经营范围的描述相对单一。对于具体行业分类准确程度,部门数据整体较高。互联网高比例数据准确率相比低比例数据更高,低比例数据同部门数据相比,差距较大,可用性也较低。结合清查阶段具体目标,互联网增补数据可在检索缺漏企业中起到重要作用,能够有效拓宽数据获取途径。最后,本研究依据上述利用企业经营范围对相应行业分类进行纠正和利用互联网多源大数据对缺失企业信息进行增补的效果,结合污染源普查实际工作中的部门要求,创新性地提出了基于大数据技术的污染源普查清查阶段基本单位名录编制流程的优化方法,进而为我国第二次全国污染源普查及未来其他环境统计工作提供了方法借鉴。

其他文献

超支化聚酰胺/介孔分子筛复合材料的设计制备及其在废水中的应用

近年来,随着工业化快速发展,环境污染问题变得越来越严重,其中重金属离子和染料水污染问题尤为突出。水资源与一切生命息息相关,而水中含重金属离子和染料浓度过高会严重危害到人类及大自然一切有生命力的动植物,因此,针对废水中重金属离子和染料污染的治理具有重大意义。目前,国内外处理废水中主要的化学方法为化学沉淀法和电解法,然而都存在着一些局限性,如操作条件苛刻、用量大以及低浓度废水处理效果差等。因此,为了提

学位

超支化聚合物介孔分子筛重金属离子甲基橙吸附

Rab5对糖尿病雪旺氏细胞自噬的影响及机制研究

目的:在我国糖尿病的发生率及死亡率逐年提高,而糖尿病周围神经病（Diabetic Peripheral Neuropathy,DPN）是糖尿病最常见的慢性并发症。雪旺氏细胞是周围神经的主要支持细胞,在

学位

糖尿病周围神经病雪旺氏细胞NF-κBRab5自噬

母乳喂养婴儿源双歧杆菌对小鼠糖脂代谢紊乱的预防作用

长期摄入高糖高脂食物的不良饮食习惯和饮食方式将会导致代谢综合征的发生,其主要病症表现为肥胖、高血脂和糖耐量受损等。由于一些药物的治疗在一定程度上伴随着副作用,因此

学位

双歧杆菌肠道菌群短链脂肪酸糖耐量受损肥胖

补肾活血方联合芬吗通治疗肾虚血瘀证亚临床期POI的临床研究

目的:以补肾活血方联合芬吗通治疗肾虚血瘀证亚临床期早发性卵巢功能不全(Premature Ovarian Insufficiency,POI)患者,对其临床疗效进行研究讨论,为本病的治疗提供新的治疗途

学位

亚临床期POI补肾活血方芬吗通肾虚血瘀证

基于联合探针锚定聚合测序的地中海贫血基因检测技术的建立及应用

地中海贫血在东南亚、地中海等沿海地区携带率高,是目前世界上发病率最高的遗传性溶血疾病。其致病基理为α或β珠蛋白链单一或复合的结构异常或合成异常导致的遗传性贫血。

学位

地中海贫血联合探针锚定聚合测序国产高通量测序平台核酸片段分离

论程抱一“生的秩序”思想的跨文化建构

在“文化中国”的视野下,华人作家的外语创作已逐渐受到中国新文学研究者的关注。汉语学界对20世纪以来的华人英语创作已多有开掘,而颇具规模的华人法语创作样貌则仍处于遮蔽

学位

程抱一华人法语作家生的秩序跨文化交流

白龙江流域舟曲-武都段大型泥石流活动趋势预测

白龙江流域舟曲-武都段是我国泥石流灾害最严重、爆发频率最高的地区之一,也是泥石流防治工程最密集的地区之一。未来在极端降水条件下,这一地区大型泥石流活动趋势如何,拦挡工程是否有效,不仅是政府和民众极为关心的问题,也是泥石流灾害研究中具有挑战性的问题之一。本文所选取白龙江流域舟曲-武都段寨子沟、三岔沟、百草沟、甘家沟、佛堂沟五条泥石流沟为研究对象。在对泥石流沟基本特征分析的基础上,采用国内外应用广泛的

学位

白龙江流域泥石流FLO-2D堆积范围拦挡工程

光、温度响应聚多肽的制备及其性质的研究

刺激响应聚合物是一类在外界条件的刺激下,其物理性质或者化学性质发生变化的聚合物。根据外界环境的不同,刺激响应聚合物可以分为温度响应型、pH响应型、光响应型等。当聚合物中含有两种或两种以上功能基团时,会形成多重刺激响应性质的聚合物。具有多重刺激响应性质的聚合物在药物控释体系、生物传感、智能表面等领域具有重要的理论研究价值和应用前景。将温度和光响应两者结合构筑的聚合物材料在调控生物大分子的活性、表面的

学位

刺激响应聚合物聚多肽偶氮苯水凝胶

介入视角下英语本科生议论文中言据标记的使用研究

在议论文写作中,言据标记是一种比较常见的表明信息来源及其可靠性、协调人际功能的语言手段。本文以评价理论中介入系统为理论视角,探究英语专业本科生议论文中言据标记的使

学位

言据标记介入系统英语本科生议论文

W复合La0.1Sr0.9TiO3陶瓷的制备及热电性能研究

SrTiO3热电陶瓷由于制备成本低且耐高温、耐氧化、无毒无污染等优点,使其有望在中高温领域广泛应用。但SrTiO3基陶瓷材料在实际应用中也同样存在着热导率较大、电导率随温度

学位

SrTiO3La掺杂W复合热电性能

基于大数据的污染源普查清查方法学研究

与本文相关的学术论文