征信系统中实体匹配方法及应用研究

来源 :大连理工大学 | 被引量 : 7次 | 上传用户:skywing_wing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体是指社会经济运行过程中有经济活动能力个体或组织,在征信系统中它可以指称个人、家庭、企业、企业集团等。实体匹配就是判定语法不同的信用信息所描述的实体是否具有相同的语义。征信系统是覆盖全国每一个有经济活动能力的实体的信用档案信息系统,它通过采集分散在社会不同部门信用信息,并按照信用实体为主题进行归集和发布的信息系统,为全国每一个有经济活动能力的实体建立其信用档案。征信系统是社会信用体系的基础设施,随着市场经济的不断发展,征信系统在社会经济生活中扮演着越来越重要的角色。实体匹配是建设全国统一征信系统的技术基础。由于不同数据源信用记录标识主键不同,加之存在数据输入错误、格式、拼写差异等问题,为了实现征信系统的功能目标,需要开展大量信用记录的实体模糊匹配运算。征信系统中实体匹配可以分为三个层次的匹配运算,分别是字段级匹配、记录级匹配和复杂结构级匹配。除此之外还需要解决征信系统所特有的匹配数据量大,采集数据源差别大,范围广,不断扩展等技术难点问题。本文以征信系统中实体匹配运算为研究对象,按照从不同数据源数据特征学习相应匹配函数的研究思路,主要进行了以下几方面研究:(1)研究了自适应字段匹配问题,提出了基于关联token的自适应字符串相似度计算方法。该算法通过关联token操作集,形式化定义了同音字相似度,提炼不同数据源的词频与关联操作频度的数据特征,并通过对支持向量机训练,以计算适应词频、关联类型等数据特征的匹配分类及相似度计算函数。通过实验验证与对比分析,说明了该算法对于数据源的数据质量、关联类型等都具有良好的适应性。(2)研究了有标识字段的实体信用记录高效匹配问题,设计了联合分组模型。为了解决大数据量实体信用记录高效匹配问题,通过分组算子抽取了索引和分组运算特征,引入了析取式和析取范式的整体分组式概念,使用多个分组算子联合对实体记录进行分组,设计了联合分组模型,以减少匹配运算中比较次数,提高信用记录匹配运算的效率。最后使用求解覆盖集方法,在保证匹配运算精度的前提下,符合不同数据源特点的最优整体分组式。通过实验验证以上方法具有较高的匹配运算效率。(3)研究了多数据源无标识字段的实体记录匹配问题。设计了半监督式基于主动学习的实体匹配方法和无监督式基于迭代SVM的自动实体匹配方法。其中前者应用主动学习的思想,首先使用聚类队列建立多个匹配函数学习机组成学习委员会,其次使用匹配熵计算式,由学习委员会在候选训练样本中主动挑选最有利匹配函数学习的实体记录对,实现对实体记录对标识字段与匹配函数自主学习。后者是利用SVM学习机最大化分类超平面与支持向量之间距离的特性,自动学习新数据源的标识字段和匹配函数。首先使用最近邻居法自动选择初始训练样本集,其次应用最大化分类间隔的特点迭代对SVM进行自动训练,使分类超平面逐步逼近匹配实体对与非匹配实体对的分类边界,实现自动的实体匹配函数的学习。通过实验分析了主动学习实体匹配方法和迭代SVM自动实体匹配方法的优点及限制条件。(4)研究了复杂数据结构的记录簇实体匹配问题。根据记录簇实体的特殊的数据结构,应用赋权二部图理论建立了规范的记录簇实体匹配的数学模型。为了实现高效地记录簇实体匹配运算,设计了记录簇实体上下界匹配算法,使用快速推导出匹配实体阈值的上下界,减少实体所属子记录最大权匹配的计算次数。通过数据实验,验证了本文提出的匹配模型与方法可以有效提高记录簇实体匹配精度和效率。(5)研究了复杂数据结构的XML半结构化实体匹配问题,通过计算XML文本中不同类型的属性节点在父节点中的权重,设定匹配实体相似度阈值,求取XML转换规则和实体匹配函数,进行XML实体的匹配运算。使用实验数据说明该方法具有良好的匹配分类效率。本文是在中国人民银行负责建设的全国集中统一的企业与个人征信系统的基础上,通过总结其实体匹配运算所面临的技术瓶颈,分析目前方法中存在的缺陷,提炼,抽象出具体的研究问题。本文提出的实体匹配方法,目前多数都已在个人与企业征信系统中投用,解决了征信系统建设过程中遇到的多数据源、海量数量、复杂结构条件下的实体匹配技术难点问题,取得了实验结果基本一致的良好使用效果。目前企业征信系统实现信贷、结算账户、社保缴费、环境违法信息等15大类共882家机构的信用信息采集与匹配运算。个人征信系统实现信贷、公积金缴存、养老保险、电信欠费等11大类共702家机构的信用信息采集与匹配运算,基本实现了全面统一的实体信用信息归集整理的征信系统建设目标。
其他文献
本文从工程实际出发,提出了故障树定性和定量分析的算法,定性分析算法基于Fussell下行法,它与素数法的结合,可以算出故障树的全割集和最小割集,定量分析算法以最小割集与媒介,根据最小割集
本文结合高校学生理想信念教育问题,从理论与实践的结合上开展全面、系统的研究,文中阐述了以下几个方面的内容:一、理想信念与高校学生理想信念教育;二、高校学生理想信念教
本文从过程管理视角出发,将过程管理原理和内涵引入高校贫困生资助管理,分析高校贫困生资助过程管理内容结构,基于对贫困生的资助政策的制定(P)、执行(D)、监督(C)、评价(A)
本文通过对商业中存在的商品存储问题进行深入的分析,设计并实现了商品存储优化分析系统。该系统主要应用于商业中,能够为商品存储决策者提供坚实决策基础。实际测试效果显著
根据某高速公路连拱隧道衬砌结构形式,建立有限元计算模型,通过改变回填混凝土单元的弹性模量模拟回填混凝土的不同密实程度,采用数值模拟方法研究回填混凝土弹性模量变化对
以粉煤灰为原料,采用碱熔融-水热法,在强酸性介质下,以EO20PO70EO20(P123)为模板剂,制备高度有序的二维六方介孔分子筛SBA-15;采用3-氯丙胺盐酸盐(CPA)对分子筛SBA-15进行化
随着中国汽车工业的发展,节能减排成为汽车厂商的重要方向,内燃机工作重点需要向能实现更低的排放的方向发展,实现这个发展方向的方法之一就是减少缸数,而减少缸数带来的扭振
为准确评估500kV同塔四回输电线路的电磁环境问题,本文通过仿真计算两种500kV同塔四回输电线路典型塔型的工频电场、线路走廊、工频磁场、无线电干扰、可听噪声;分析了对电磁
以甲基纤维素、甲基丙烯酸甲酯、甲基丙烯酸、丙烯酰胺及甲基丙烯磺酸钠等合成具有不同官能团的湿度控制材料,通过间歇式吸附/脱附进行吸湿动力学实验和恒温脱附实验;采用TG-
随着21世纪经济全球化与经济一体化的到来,各国的经济过境概念也渐渐退色了。并且各国企业的活动范围也正在向全球市场扩大,各国的贸易也因此变得更加活跃。从而使物资的流通