论文部分内容阅读
为了加强对环境污染的监督管理,及时了解及记录各企事业单位潜在的环境污染基本信息,我国于2008年开展了第一次全国污染源普查。在第一次全国污染源普查工作中,囿于我国当时的认识及技术手段和数据分析能力有限,存在许多不足之处。当时在污染源普查清查阶段,政府部门仅根据企业的行业分类代码进行筛选,形成一份基本单位名录作为清查阶段的入户依据。但政府部门数据的不完整以及筛选所用的行业类别代码存在大量错误,致使清查基本单位名录存在相当数量的漏失企业,造成工业污染源基本单位名录不准确。我国第二次污染源普查于2018年开始,因此,本研究希望利用大数据及相关技术,以工商数据中的企业经营范围作为基础,识别并纠正行业类别,同时利用互联网大数据技术对基本单位名录进行增补,最终优化污染源普查清查阶段数据处理流程、提升基本单位名录的构建效率和准确度。首先,本研究对可使用的方法进行比较,对政府部门所提供的数据进行评价和筛选,在海量数据处理的背景下,构建机器学习分类模型。以此为基础,按照机器学习处理实际问题的基本思路,首先构造标准数据集并验证其准确性及可用性,利用多种分类算法进行比较分析,择优使用。随后以此构建的标定数据集为训练集,对政府部门所提供的国家工商数据、省工商数据和市工商数据进行预测分类,同时为保证可靠性,利用清查实际入户反馈及其他补充实验进行准确性检验,最终验证本研究建立的机器学习模型的可用性。针对机器学习的模型建立,我们通过几种算法比较后可知朴素贝叶斯分类算法为最佳算法,且经过清查实际反馈检验显示,若以F1值(准确率和召回率的调和平均数,F1值越高,代表分类结果越好)为评价指标进行衡量,各数据集F1值分别相对提升32.92%,21.42%,14.91%。补充实验所得结果相比于原始政府部门数据集,F1值分别相对提升151.06%、213.45%和132.13%,提升效果较显著。从而验证了标定数据集的准确性以及该机器学习模型通过企业经营范围识别并纠正错误行业类别的可用性。其次,为进一步使得第二次普查更准确,本研究探讨了利用互联网大数据对于基本单位名录增补的可行性。以互联网多源大数据为基础,通过大数据可用性的一般分析原则对数据进行评价和筛选。利用以上经过验证可用的机器学习分类预测模型,对筛选后的互联网数据进行分类预测。使用清查实际入户反馈及其他补充实验进行准确性检验,并分析数据质量。最终互联网增补数据准确率为17.26%,同市工商数据近似。结合实际工作情况,通过补充实验分析,确定互联网增补数据对于企业基本名录的增补贡献度应在4.54%-16.85%。对所得分类结果进行横向及纵向比较,互联网数据相比部门数据,存在较为明显的同质化现象,且在互联网数据中低比例数据同质化更为明显,这是由于互联网数据对企业经营范围的描述相对单一。对于具体行业分类准确程度,部门数据整体较高。互联网高比例数据准确率相比低比例数据更高,低比例数据同部门数据相比,差距较大,可用性也较低。结合清查阶段具体目标,互联网增补数据可在检索缺漏企业中起到重要作用,能够有效拓宽数据获取途径。最后,本研究依据上述利用企业经营范围对相应行业分类进行纠正和利用互联网多源大数据对缺失企业信息进行增补的效果,结合污染源普查实际工作中的部门要求,创新性地提出了基于大数据技术的污染源普查清查阶段基本单位名录编制流程的优化方法,进而为我国第二次全国污染源普查及未来其他环境统计工作提供了方法借鉴。