基于大规模数据的企业地址识别系统

来源 :厦门大学 | 被引量 : 0次 | 上传用户:show800811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
改革开放以来,中国大力发展经济,加上近年的商事制度改革,国内中小企业的创业成本大大降低。之前企业注册、变更需要在国家工商总办处理,现在简化为在企业所在的相关行政单位即可办理。2017年的一季度全国的企业登记数量为125.5万户,平均日登记数为1.4万户。在同年3月底,全国各类注册企业达到8935.7万户。面对增涨如此迅猛的企业数量,其合法性和规范性却难以得到保障,需要相关部门实时进行监管。工商局等相关部门持有大量的企业注册信息,其中企业地址是最关键的信息之一。通过对比企业工商注册地址是否为日常真实运营地址,是最有效的方案之一。地址是与人们日常生活息息相关的一种地理位置信息描述,但是由于历史、区域、风俗等因素,很多地址信息无法进行直接的对比处理。通过地址匹配技术能有效的完成地址信息描述和对比。本文详细描述分库分表、大数据处理、自然语言处理技术,并对中文地址特征进行归纳分析。根据已有公司名称,通过大数据爬虫从网络上获取公司可能运营地址,并与原有工商注册地址通过分库分表存入数据存储保存。面对千万级的企业信息,通过Flume、Kafka、Spark Streaming搭建的大数据实时流计算系统,对原有地址和爬虫地址做一个匹配处理。匹配模块由基于词典匹配的行政区划,和基于NPL词向量匹配的非行政区划两部分组成。整个系统搭建对各个功能模块进行解耦,便于系统迭代和管理。并最终通过在企业黄页网站爬取的大量企业信息作为数据集,进行系统稳定性、高效性、匹配准确性的实验,并给出结果分析。
其他文献
目的采用HPLC法同时测定香丹注射液 (复方丹参注射液 )及丹参注射液中 4种水溶性成分丹酚酸B、迷迭香酸、丹参素和原儿茶醛含量。方法采用HypersilC18(2 5 0mm× 4 6mm ,5
探讨水性涂料用氧化铁红色浆体系中颜料含量、预分散转速、研磨次数、分散剂及增稠剂等对其分散稳定性的影响,确定了该体系的颜料含量、制备工艺以及相关助剂的种类和用量。
本文研究了特惠贸易协定(PTA)对于缔约国出口复杂度的影响。本文首先通过扩展Hausmann等(2007)的成本发现模型,研究特惠贸易协定影响出口复杂度的理论机制,结果表明:特惠贸易
目的探究扶绥县肝癌高发区乙型肝炎病毒(Hepatitis B virus,HBV)前S(PreS)、前C/BCP(PreC/BCP)区基因突变与肝细胞癌(Hepatocellular carcinoma, HCC)发生发展的关系,并建立
研究目的:胰腺癌是一种常见的消化系统恶性肿瘤,其发病率及死亡率呈逐年上升趋势。大多数胰腺癌早期症状不明显,发现时已处晚期。胰腺癌恶性程度高、预后差,对其及早诊断与治
目的:通过改变miRNA-150-5p在脊索瘤细胞U-CH1中的表达水平,研究miRNA-150-5p对脊髓瘤细胞增殖、侵袭、放射敏感性等作用的影响。方法:前期研究通过microRNA芯片技术对脊索瘤
合成了若干化工试剂并复配成涤纶高温匀染剂。产品性能测试及应用结果表明:该产品防色点能力强、移染性好、分散性佳、乳化力强。
目的以2-甲基-β-环糊精(2-O-methylated-β-cyclodextrin,2-O-M-β-CD)为手性添加剂,利用毛细管电泳法(capillary electrophoresis,CE)对消旋体药物甲溴后马托品、氧氟沙星
通过对煤矿井下综采作业面内粉尘含量的分布规律研究,结合现有喷雾降尘装置在实际应用中存在的问题,提出了一种新的高效喷雾降尘装置。根据实际验证效果得知,该喷雾降尘装置
司马迁采用人物统领事件的纪传体形式来叙述历史,将人物置于异常显著的位置,他不仅从历史的角度传叙历史人物,而且以思想家的睿智思考着历史人物之所以脱颖而出,名垂青史的原因,他