基于全国土地确权信息采集系统中数据分析算法的研究与应用

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:ppc8xzf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给机器处理和计算能力带来巨大挑战的同时,也为人们对于海量数据的挖掘和运用提供了空前的机遇。因此,面对海量的数据如何进行行之有效的分析,发掘并提取隐藏在其中的信息,探寻数据中存在的关系和规则成为迫切需求。而数据分析的目的就是把隐没在海量数据中的信息提炼、集中出来,从而帮助人们根据所得到的结论制定相应的方案。在全国土地确权信息采集系统上线并稳定运行的两年中,积累了大量的土地承包经营权确权登记颁证工作方面的数据。其中包括全国共2778个县(区)9个季度的季报信息数据,每个季度季报信息当中各县(区、市)提交了不少于42项的季报信息数据,截止2016年第二季度,数据量总计为1195837条记录。此外,还有每年度9项的基础信息数据,数据量总计为75961条记录。在系统运行的过程中,我们发现:土地确权信息采集系统按照季度进行数据采集,周期比较长,并且采集的数据项众多,填报提交过程中容易出现数据不准确或错误的情况。基于以上情况,如何利用数据分析的方法,结合信息采集系统中已经积累的大量数据,建立数据预测模型,快速、及时的为基于土地数据的决策提供支持,分析并发现系统中潜在的数据异常或错误就成为了本论文的研究重点,论文的主要工作和创新点如下:1、围绕数据分析涉及到的核心技术展开研究,针对土地确权信息采集系统的原始数据结构,设计了一种可用于后续数据分析的数据仓库。该数据仓库存储的针对土地确权信息采集系统编写的结构化查询语言脚本,可自动化执行从源数据库到目的数据仓库的数据抽取、转换、清洗和装载(ETL)过程,并且可以根据需要调整结构化查询语言脚本对数据抽取规则进行精细控制,从而极大地提高了数据清洗和装载的灵活性。2、围绕各种数据分析算法展开研究和对比,根据数据仓库的整体架构设计和数据的非线性特点,设计输入-输出数据的尺度变换方法、训练样本集选取规则,确定网络的训练函数和各层间传递函数,给出BP神经网络模型隐含层节点数、迭代次数等关键参数,以此为基础建立了一种三层结构的BP神经网络数据预测模型,并在Matlab环境下进行模拟与仿真。所建立的数据预测模型在数据集准确的条件下,预测结果归一化误差在±0.1范围内,可作为下一季度的数据填报提交工作的指导数值;在数据可能存在异常或错误的条件下,误差则扩展到±1范围内,通过存在较大误差的预测值可以找出有潜在错误的数据集,从而进一步提高数据的准确性。
其他文献
外国法院判决的承认与执行是国际私法所调整的重要内容 ,英美法系国家将其视为国际私法应解决的三大问题之一。加拿大承认与执行外国法院判决的制度中吸收了英美等国的一些基
本文以南方某化工厂二聚酸生产副产物——单体酸为原料,研究开发为生物柴油和铝材轧制油添加剂。论文采用GC/MS技术剖析了单体酸的组成,结果表明,样品主要含肉豆蔻酸(12.16%)、
公平与公正待遇条款是国际投资法上的超级帝王条款。现有公平与公正待遇条款表述方式大多过于抽象模糊,投资条约仲裁庭对于公平与公正待遇条款的解释存在宽泛性、不确定性、
$T俗话说:“不进则退”。退步,这个名称常让人觉得不太光彩,一般都认为,凡是退步就是落后、后进的意思,可近几年来,在众多的健身锻炼方法中,“退步走”疗法却越来越受到了人们的青睐
报纸
对职务侵占罪持"单一法益论"的通说,局限于财产法益,导致刑法理论与司法实践在解释本罪所利用的"职务"范围时阙如法益的指导,造成理论的误解和司法的误判。职务侵占罪的保护
本文以玄武岩纤维平纹织物为实验原材料,设计实验探究其在热防护领域的应用,利用等离子体改性技术以及涂层技术改善玄武岩纤维织物自身的不足。使用Instron3369型万能材料试
在缺乏相应基础和前提的条件下,地方税系建设应先由基层政府入手。基层政府税系建设必须遵循财政改革的整体性要求,将收支统一起来,基于受益原则进行设计。以房地产税改革为
我国西部地区蕴藏着极为丰富的低灰、低硫、低磷煤资源,如果能通过增塑措施提高它的粘结性,用作炼焦煤,将会解决我国低灰低硫炼焦煤资源短缺的问题。本论文来源于国家863专题
中国作为《国际刑事法院规约》的非缔约国,一直高度关注着它的发展。本文以国际法的视角,反驳了中国未能通过该规约的五点理由,阐述了笔者对中国加入国际刑事法院的鲜明立场,