论文部分内容阅读
随着大数据时代的来临,数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给机器处理和计算能力带来巨大挑战的同时,也为人们对于海量数据的挖掘和运用提供了空前的机遇。因此,面对海量的数据如何进行行之有效的分析,发掘并提取隐藏在其中的信息,探寻数据中存在的关系和规则成为迫切需求。而数据分析的目的就是把隐没在海量数据中的信息提炼、集中出来,从而帮助人们根据所得到的结论制定相应的方案。在全国土地确权信息采集系统上线并稳定运行的两年中,积累了大量的土地承包经营权确权登记颁证工作方面的数据。其中包括全国共2778个县(区)9个季度的季报信息数据,每个季度季报信息当中各县(区、市)提交了不少于42项的季报信息数据,截止2016年第二季度,数据量总计为1195837条记录。此外,还有每年度9项的基础信息数据,数据量总计为75961条记录。在系统运行的过程中,我们发现:土地确权信息采集系统按照季度进行数据采集,周期比较长,并且采集的数据项众多,填报提交过程中容易出现数据不准确或错误的情况。基于以上情况,如何利用数据分析的方法,结合信息采集系统中已经积累的大量数据,建立数据预测模型,快速、及时的为基于土地数据的决策提供支持,分析并发现系统中潜在的数据异常或错误就成为了本论文的研究重点,论文的主要工作和创新点如下:1、围绕数据分析涉及到的核心技术展开研究,针对土地确权信息采集系统的原始数据结构,设计了一种可用于后续数据分析的数据仓库。该数据仓库存储的针对土地确权信息采集系统编写的结构化查询语言脚本,可自动化执行从源数据库到目的数据仓库的数据抽取、转换、清洗和装载(ETL)过程,并且可以根据需要调整结构化查询语言脚本对数据抽取规则进行精细控制,从而极大地提高了数据清洗和装载的灵活性。2、围绕各种数据分析算法展开研究和对比,根据数据仓库的整体架构设计和数据的非线性特点,设计输入-输出数据的尺度变换方法、训练样本集选取规则,确定网络的训练函数和各层间传递函数,给出BP神经网络模型隐含层节点数、迭代次数等关键参数,以此为基础建立了一种三层结构的BP神经网络数据预测模型,并在Matlab环境下进行模拟与仿真。所建立的数据预测模型在数据集准确的条件下,预测结果归一化误差在±0.1范围内,可作为下一季度的数据填报提交工作的指导数值;在数据可能存在异常或错误的条件下,误差则扩展到±1范围内,通过存在较大误差的预测值可以找出有潜在错误的数据集,从而进一步提高数据的准确性。