论文部分内容阅读
摘要:数据资源是不动产统一登记的基础,是不动产登记工作顺利开展的重要前提。本文以广州市不动产登记数据为例,在对现有数据进行分析的基础上,对多源异构不动产登记数据抽取技术方法进行研究,提出数据抽取方式、流程及数据抽取方案,以便将原不动产登记业务系统的数据抽取至不动产电子登记簿数据库,为不动产登记数据共享和再利用提供有力的保障和支持。
关键词:多源异构;不动产登记;数据抽取
1、引言
数据资源是不动产统一登记的基础。目前,国土、房产、农业、林业等部门都积累了大量宝贵的不动产登记数据,包含大量的历史档案、登记信息和图形数据,具有种类多、数据量大、多源异构、历史关系复杂、数据之间关联性较差等特点。各登记部门在登记数据方面存在一定程度的耦合,并且都各自支持着大量业务系统的运行,在数据来源、数据组织方式等方面都存在较大差异。随着各地不动产信息化平台建设工作进入常态化,如何将现有的分散存放、格式不一、介质不同的不动产登记信息存量数据更好地进行统一、整合,解决数据模式不匹配、数据内容不唯一、语义冲突等问题,是我们面临的难点和关键。本文以廣州市不动产数据为例,探讨一种多源异构不动产登记数据抽取技术方法,从而为全面构建不动产统一登记提供强有力的数据支撑和保障。
2、现有数据分析
广州市房地产登记业务信息化建设起步较早,经过多年建设,目前广州市在用的与房地有关的信息系统达19个,主要有广州市房地产档案管理系统、房地产交易登记整合系统、新房屋管理系统、广州市集体土地登记发证系统以及各区分局历史以来自行建设的各类房产或土地登记业务管理系统等。由于在用登记业务系统较多,导致已经建成的不动产系统的数据库标准和使用情况不一致,不能满足统一利用的需求。经对广州市土地、房产等部门现有不动产业务登记现状情况进行分析,其成果数据主要情况如下:
(1)成果数据库存量大,房地产测绘成果、业务登记成果数据、档案成果数据管理源头众多,存在多源头业务数据重复现象;
(2)成果管理规范不一,格式众多,土地测绘成果坐标管理混乱,不同年代不同坐标系的成果未作统一转换处理,宗地权属测绘成果空间压盖问题严重;
(3)宗地及房地产单元编号规则不统一,地方编号标准众多,不符合不动产空间数据入库规范要求;
(4)部分业务登记数据缺失,宗地、楼栋空间入库数据不全,属性数据存在不完整或缺失,楼盘表数据信息不全;
(5)未进行地楼房统一空间数据建库,房与地(自然幢)存在空间关联缺失;集体房产登记成果上下手关系关联不全,存在权属关联信息缺失;房地产登记业务成果未与空间数据实现关联,权属数据均未落宗;
(6)未对各类土地或房地产登记档案成果未形成统一的登记簿册,电子档案管理模式不一致,存在独立档案数据管理以及业务与档案数据混合管理两种模式等。
通过以上分析,如果用传统模式开展数据整合要消耗大量的人力、物力,效率较低,需要寻找一种高效快捷的技术方法来实现,建立现有不动产登记业务系统数据动态抽取工作机制,将原不动产登记业务系统的数据抽取至不动产电子登记簿数据库。
3、数据抽取原则
(一)一致性原则
在数据抽取过程中不能对原始数据进行修改,保证抽取前后的数据一致。
(二)规范性原则
依据《广州市不动产电子登记簿数据库标准》,对档案库中现有的房、地登记信息进行抽取并规范化。
(三)可迭代性原则
由于数据抽取过程中并没有通过手工整理过历史数据,必然存在部分数据抽取后不符合前期标准,需要重新对标准进行修改,以适应历史数据。标准制定、数据初次抽取、标准修订、数据再次抽取,这是一个持续的迭代过程。
4、数据抽取方式及流程
根据不动产现有系统的实际情况,数据抽取的方法可以分为以下两种模式。
(1)主动上报
由各现有系统的管理单位,根据简易版电子登记簿模板的要求,主动将本系统数据库中的数据一次完整上报至简易版电子登记簿前置数据库中。
(2)被动抽取
由项目建设单位在各现有系统的管理单位的协助下,依据简易版电子登记簿模板的要求,将系统数据库中的数据一次完整上报至简易版电子登记簿前置数据库中。
被动抽取包含以下几个步骤:
(1)数据分析
对广州市现有的19套不动产业务和档案系统分析,确定广州市不动产电子登记簿的数据来源,并确定每套系统的业务和数据逻辑关系,同时制定每套系统到不动产电子登记簿数据库的转换方法。为了达到短时间内抽取各系统登记数据的目的,要求现有系统按统一的格式提供数据访问视图。
(2)数据转换
数据转换是在数据分析基础上,采用初步确定的转换方案进行转换,在转换过程中根据实际问题进行调整,直到数据转换成功,所有过程记录到操作日志。
数据转换的过程需包括以下内容:
(1)模拟抽取
根据设计的数据抽取测试方案测试数据模拟抽取,也就是检查数据模拟抽取后数据是否正常。
完成数据同步工具和转换方案的制作后,对数据转换的质量进行测试,针对测试成果对数据抽取工具和转换方案进行修改,直到数据转换的质量符合原样迁移和满足《广州市不动产电子登记簿数据库标准》为止。
在测试阶段,如果发现部分数据无法通过程序或者脚本进行同步的,记录这些数据和这些产生这些数据的原因,并对产生问题的原因进行分析,建立机制,确保在日常同步数据时不会出现遗漏、错误的情况。
(2)抽取准备
数据模拟抽取测试成功后,在正式实施数据抽取前还需要做好以下几个方面工作:进行完全数据备份、确定数据抽取方案、准备抽取工具等。 (3)正式抽取
按照确定的数据抽取方案,正式实施数据抽取。
首次同步:在确定数据同步能够达到原样迁移后,选择非不动产业务登记工作时间段,完成首次数据同步工作,并在此验证数据同步的数量,如果首次同步失败,则需要判断失败的原因,及时更正方法,等待下个登记业务办理的休息日再进行数据同步。
日常同步:完成首次同步工作后,数据同步工具将继续运行,每日定时或者根据各不动产业务档案数据库的变化实时同步数据。
(4)效果分析
按照数据抽取测试方案测试数据抽取效果,并对数据抽取后的数据库参数和性能进行调整,使之满足数据抽取后实际应用系统的需要。
抽取校核
为保证抽取的数据质量,抽取验证采用全库逻辑验证和抽样人工检查两种方式。需对数据逻辑关系检查和业务数据正确性检查方面提供解决方案。
通过编写的脚本进行数据查询,核对数据查询的數据量是否与实际一致,随机抽检数据的主体权利和其他权利是否与实际的数据表单一致,如果发现存在错误则需要重新调整转换方案,直到正确为止。
通过校核的数据,则交换到不动产电子登记簿数据库,同时自动删除中间数据库中的数据;未通过校核的数据,则直接生成问题响应文件,反馈给不动产登记数据抽取工具,同时删除中间库中的数据,不动产登记业务系统根据问题响应文件中的问题提示信息,对数据进行处理后,重新生成登记业务数据汇交抽取到不动产电子登记簿数据库,再次依照上述校验流程进行流转,直到抽取的数据达到《广东省不动产登记数据库标准》和《广州市不动产电子登记簿数据库标准》要求。
5、数据抽取方案
为保证现有系统数据的抽取不受影响,可针对不同的系统制定对应的数据抽取方案。抽取方案主要包含:方案名称、时间、同步内容、创建者、最后执行时间等关键信息。数据抽取平台会定时执行对应的数据抽取方案以达到数据实时的目的。
(一)完整性抽取更新
完整性抽取更新方案的数据抽取时间起点是在各现有系统的数据库中已经按照不动产现状成果库的要求建立了视图,每天晚上定时对各现有系统的数据进行查询,完全覆盖之前的记录。完整性抽取更新方案流程如下图所示:
这种更新的优点是当各现有系统处于闲时才进行数据更新,不会因为数据查询和数据写入的操作而影响登记部门的系统使用效率,缺点是写入数据库中的现状数据实时性最多有一个工作日的时间差。
(二)增量式抽取更新
系统正式上线后会对满足抽取条件的系统数据进行一次全库抽取,对于日常业务办理中产生的变化数据采用每日更新的方式;对于未满足接入条件的系统采用分步接入的方式。增量式抽取更新方案流程如下图所示:
图2 增量式抽取更新方案
为保证数据抽取的实时性,不影响各现有系统的正常运行速度以及在查询、利用本数据的效率,建议使用的数据抽取模式如下描述:
(1)在服务器上建立不动产现状成果数据库;
(2)在各现有系统的数据库中建立数据视图,便于完整性查询和完成首次数据抽取工作;
(3)在各现有系统的数据库中建立触发机制和更新表,可以将现状不动产登记成果数据的增删改情况实时反馈到数据表中,抽取系统实时或者定时将更新表的数据更新至现状数据库中。
经过研究与模拟环境测试表明,若在日常工作中数据入库的方式是单条/笔数据入库的情况下,如原数据写入时间是1秒,在各现有系统的数据库中建立触发机制后,写入数据在1.2秒左右;若在日常工作中数据入库的方式是批量导入,使用触发机制会对原数据库性能产生较大影响,所需要时间约为原来的两倍。
6、结束语
在不动产登记过程中,数据的好坏直接影响到不动产能否按照标准要求进行登记。而土地登记数据和房产登记数据是不动产登记数据的主要内容。这些数据的多源异构性导致不能满足统一利用的需求。本文以广州市不动产登记数据为例,在综合分析目前不动产登记数据现状的基础上,依据不动产电子登记簿数据库标准等要求,探索了一种多源异构不动产登记数据抽取的技术方法和思路,期望能对不动产数据整合的长效机制构建有所借鉴。
参考文献
[1] 国土资源部.不动产登记数据整合建库技术规范(试行).
[2] 王履华, 孙在宏,彭英,丁远.不动产登记信息数据整合及管理基础平台建设研究.地理信息世界, 2014,21(4):76-82.
[3]黄亮,张鹏.不动产统一登记新思路——谈以土地所有权为基础的不动产统一登记体系构建[J].中国土地,2013,32(3):47-48.
[4] 张双根.论房地关系与统一不动产登记簿册 兼及不动产物权实体法与程序法间的交织关系.中外法学,2014,04.
关键词:多源异构;不动产登记;数据抽取
1、引言
数据资源是不动产统一登记的基础。目前,国土、房产、农业、林业等部门都积累了大量宝贵的不动产登记数据,包含大量的历史档案、登记信息和图形数据,具有种类多、数据量大、多源异构、历史关系复杂、数据之间关联性较差等特点。各登记部门在登记数据方面存在一定程度的耦合,并且都各自支持着大量业务系统的运行,在数据来源、数据组织方式等方面都存在较大差异。随着各地不动产信息化平台建设工作进入常态化,如何将现有的分散存放、格式不一、介质不同的不动产登记信息存量数据更好地进行统一、整合,解决数据模式不匹配、数据内容不唯一、语义冲突等问题,是我们面临的难点和关键。本文以廣州市不动产数据为例,探讨一种多源异构不动产登记数据抽取技术方法,从而为全面构建不动产统一登记提供强有力的数据支撑和保障。
2、现有数据分析
广州市房地产登记业务信息化建设起步较早,经过多年建设,目前广州市在用的与房地有关的信息系统达19个,主要有广州市房地产档案管理系统、房地产交易登记整合系统、新房屋管理系统、广州市集体土地登记发证系统以及各区分局历史以来自行建设的各类房产或土地登记业务管理系统等。由于在用登记业务系统较多,导致已经建成的不动产系统的数据库标准和使用情况不一致,不能满足统一利用的需求。经对广州市土地、房产等部门现有不动产业务登记现状情况进行分析,其成果数据主要情况如下:
(1)成果数据库存量大,房地产测绘成果、业务登记成果数据、档案成果数据管理源头众多,存在多源头业务数据重复现象;
(2)成果管理规范不一,格式众多,土地测绘成果坐标管理混乱,不同年代不同坐标系的成果未作统一转换处理,宗地权属测绘成果空间压盖问题严重;
(3)宗地及房地产单元编号规则不统一,地方编号标准众多,不符合不动产空间数据入库规范要求;
(4)部分业务登记数据缺失,宗地、楼栋空间入库数据不全,属性数据存在不完整或缺失,楼盘表数据信息不全;
(5)未进行地楼房统一空间数据建库,房与地(自然幢)存在空间关联缺失;集体房产登记成果上下手关系关联不全,存在权属关联信息缺失;房地产登记业务成果未与空间数据实现关联,权属数据均未落宗;
(6)未对各类土地或房地产登记档案成果未形成统一的登记簿册,电子档案管理模式不一致,存在独立档案数据管理以及业务与档案数据混合管理两种模式等。
通过以上分析,如果用传统模式开展数据整合要消耗大量的人力、物力,效率较低,需要寻找一种高效快捷的技术方法来实现,建立现有不动产登记业务系统数据动态抽取工作机制,将原不动产登记业务系统的数据抽取至不动产电子登记簿数据库。
3、数据抽取原则
(一)一致性原则
在数据抽取过程中不能对原始数据进行修改,保证抽取前后的数据一致。
(二)规范性原则
依据《广州市不动产电子登记簿数据库标准》,对档案库中现有的房、地登记信息进行抽取并规范化。
(三)可迭代性原则
由于数据抽取过程中并没有通过手工整理过历史数据,必然存在部分数据抽取后不符合前期标准,需要重新对标准进行修改,以适应历史数据。标准制定、数据初次抽取、标准修订、数据再次抽取,这是一个持续的迭代过程。
4、数据抽取方式及流程
根据不动产现有系统的实际情况,数据抽取的方法可以分为以下两种模式。
(1)主动上报
由各现有系统的管理单位,根据简易版电子登记簿模板的要求,主动将本系统数据库中的数据一次完整上报至简易版电子登记簿前置数据库中。
(2)被动抽取
由项目建设单位在各现有系统的管理单位的协助下,依据简易版电子登记簿模板的要求,将系统数据库中的数据一次完整上报至简易版电子登记簿前置数据库中。
被动抽取包含以下几个步骤:
(1)数据分析
对广州市现有的19套不动产业务和档案系统分析,确定广州市不动产电子登记簿的数据来源,并确定每套系统的业务和数据逻辑关系,同时制定每套系统到不动产电子登记簿数据库的转换方法。为了达到短时间内抽取各系统登记数据的目的,要求现有系统按统一的格式提供数据访问视图。
(2)数据转换
数据转换是在数据分析基础上,采用初步确定的转换方案进行转换,在转换过程中根据实际问题进行调整,直到数据转换成功,所有过程记录到操作日志。
数据转换的过程需包括以下内容:
(1)模拟抽取
根据设计的数据抽取测试方案测试数据模拟抽取,也就是检查数据模拟抽取后数据是否正常。
完成数据同步工具和转换方案的制作后,对数据转换的质量进行测试,针对测试成果对数据抽取工具和转换方案进行修改,直到数据转换的质量符合原样迁移和满足《广州市不动产电子登记簿数据库标准》为止。
在测试阶段,如果发现部分数据无法通过程序或者脚本进行同步的,记录这些数据和这些产生这些数据的原因,并对产生问题的原因进行分析,建立机制,确保在日常同步数据时不会出现遗漏、错误的情况。
(2)抽取准备
数据模拟抽取测试成功后,在正式实施数据抽取前还需要做好以下几个方面工作:进行完全数据备份、确定数据抽取方案、准备抽取工具等。 (3)正式抽取
按照确定的数据抽取方案,正式实施数据抽取。
首次同步:在确定数据同步能够达到原样迁移后,选择非不动产业务登记工作时间段,完成首次数据同步工作,并在此验证数据同步的数量,如果首次同步失败,则需要判断失败的原因,及时更正方法,等待下个登记业务办理的休息日再进行数据同步。
日常同步:完成首次同步工作后,数据同步工具将继续运行,每日定时或者根据各不动产业务档案数据库的变化实时同步数据。
(4)效果分析
按照数据抽取测试方案测试数据抽取效果,并对数据抽取后的数据库参数和性能进行调整,使之满足数据抽取后实际应用系统的需要。
抽取校核
为保证抽取的数据质量,抽取验证采用全库逻辑验证和抽样人工检查两种方式。需对数据逻辑关系检查和业务数据正确性检查方面提供解决方案。
通过编写的脚本进行数据查询,核对数据查询的數据量是否与实际一致,随机抽检数据的主体权利和其他权利是否与实际的数据表单一致,如果发现存在错误则需要重新调整转换方案,直到正确为止。
通过校核的数据,则交换到不动产电子登记簿数据库,同时自动删除中间数据库中的数据;未通过校核的数据,则直接生成问题响应文件,反馈给不动产登记数据抽取工具,同时删除中间库中的数据,不动产登记业务系统根据问题响应文件中的问题提示信息,对数据进行处理后,重新生成登记业务数据汇交抽取到不动产电子登记簿数据库,再次依照上述校验流程进行流转,直到抽取的数据达到《广东省不动产登记数据库标准》和《广州市不动产电子登记簿数据库标准》要求。
5、数据抽取方案
为保证现有系统数据的抽取不受影响,可针对不同的系统制定对应的数据抽取方案。抽取方案主要包含:方案名称、时间、同步内容、创建者、最后执行时间等关键信息。数据抽取平台会定时执行对应的数据抽取方案以达到数据实时的目的。
(一)完整性抽取更新
完整性抽取更新方案的数据抽取时间起点是在各现有系统的数据库中已经按照不动产现状成果库的要求建立了视图,每天晚上定时对各现有系统的数据进行查询,完全覆盖之前的记录。完整性抽取更新方案流程如下图所示:
这种更新的优点是当各现有系统处于闲时才进行数据更新,不会因为数据查询和数据写入的操作而影响登记部门的系统使用效率,缺点是写入数据库中的现状数据实时性最多有一个工作日的时间差。
(二)增量式抽取更新
系统正式上线后会对满足抽取条件的系统数据进行一次全库抽取,对于日常业务办理中产生的变化数据采用每日更新的方式;对于未满足接入条件的系统采用分步接入的方式。增量式抽取更新方案流程如下图所示:
图2 增量式抽取更新方案
为保证数据抽取的实时性,不影响各现有系统的正常运行速度以及在查询、利用本数据的效率,建议使用的数据抽取模式如下描述:
(1)在服务器上建立不动产现状成果数据库;
(2)在各现有系统的数据库中建立数据视图,便于完整性查询和完成首次数据抽取工作;
(3)在各现有系统的数据库中建立触发机制和更新表,可以将现状不动产登记成果数据的增删改情况实时反馈到数据表中,抽取系统实时或者定时将更新表的数据更新至现状数据库中。
经过研究与模拟环境测试表明,若在日常工作中数据入库的方式是单条/笔数据入库的情况下,如原数据写入时间是1秒,在各现有系统的数据库中建立触发机制后,写入数据在1.2秒左右;若在日常工作中数据入库的方式是批量导入,使用触发机制会对原数据库性能产生较大影响,所需要时间约为原来的两倍。
6、结束语
在不动产登记过程中,数据的好坏直接影响到不动产能否按照标准要求进行登记。而土地登记数据和房产登记数据是不动产登记数据的主要内容。这些数据的多源异构性导致不能满足统一利用的需求。本文以广州市不动产登记数据为例,在综合分析目前不动产登记数据现状的基础上,依据不动产电子登记簿数据库标准等要求,探索了一种多源异构不动产登记数据抽取的技术方法和思路,期望能对不动产数据整合的长效机制构建有所借鉴。
参考文献
[1] 国土资源部.不动产登记数据整合建库技术规范(试行).
[2] 王履华, 孙在宏,彭英,丁远.不动产登记信息数据整合及管理基础平台建设研究.地理信息世界, 2014,21(4):76-82.
[3]黄亮,张鹏.不动产统一登记新思路——谈以土地所有权为基础的不动产统一登记体系构建[J].中国土地,2013,32(3):47-48.
[4] 张双根.论房地关系与统一不动产登记簿册 兼及不动产物权实体法与程序法间的交织关系.中外法学,2014,04.