预训练深度学习架构下的语义地址匹配与语义空间融合模型研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wq123sd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国数字城市与智慧城市建设的不断开展,地址信息作为战略性的基础地理信息及空间数据资源,在人们日常生活中的作用愈发重要,而且在国家的经济建设、文化发展和社会管理等多方面也起到相当关键的作用。在各行各业的基于位置服务的大数据应用需求驱动下,我国各相关部门采集和积累了海量异构的地址数据。然而由于我国地址规范标准不统一以及人工采集与管理秩序的混乱,导致地址信息的解析和理解成为一大难题,也极大地限制了其在各个领域内的应用。因此,有必要从认知地址文本信息和理解地址语义知识的角度出发以形成地址语义模型,让其深入挖掘地址信息的语义特征内涵并适用于计算机的高性能运算。此外,地址特有的寻址属性使得理解和融合其语义与空间信息具有重要的理论价值和实践意义,也是当前的学术热点。针对现有的地址模型研究中所存在的语义信息表达不完善、信息智能化应用不充分以及相关任务场景泛化性弱的困境,本文利用了深度神经网络中的注意力机制及“预训练-微调”模式,将地址语义理解、语义地址匹配和空间语义融合等关联度较大的任务转为可计算的深度神经网络模型的搭建和优化问题。针对地址文本语料的特性,采用自监督学习构建深度学习架构以形成地址语义模型来支持各地址相关任务。在此基础上,通过生成有监督的匹配数据集对模型进行微调,让模型针对性地识别地址间的语义相似性并实现高精度的地址匹配任务。同时考虑到地址特有的空间属性,设计了一套遵循空间相似度规则的数据集并通过对地址语义模型的微调将空间距离与地址语义进行深度关联融合。本研究系统性地构建了语义认知理解-地址高效精确匹配-空间语义深度融合-下游应用任务验证评价的中文地址理论体系和方法架构,以百万量级的位于浙江省杭州市上城区的地址语料库为实验数据对设计的方法架构进行测试、验证和应用。本文的研究内容概况如下:(1)构建了一套以广义的自回归预训练方法为核心的深度神经网络结构下的地址语义模型来实现地址语义信息的自动获取,并将“预训练-微调”模式引入地址研究中。考虑到地址中每个字符间的相互影响和双向上下文语序关系,提出了一套以排列组合式未知字符预测为目标的地址语义模型,并利用目标位置感知的双轨自注意力结构解决建模中的目标位置信息缺失问题,最终设计了具有自学习能力并且能够提供各相关应用迁移学习能力的新型深度神经网络。实验结果表明其实现了海量多源异构地址数据集的语义信息理解和表征,为基于该模型的后续应用任务研究的优秀表现夯实了基础。(2)设计并实现了基于地址语义模型微调后的语义地址匹配建模方法。受文本蕴含及文本复述理论启发,以空间位置信息为推理条件构建带标签的有监督地址对数据集,建立了一种用于有效地址匹配任务的深度神经网络架构和训练框架。以构建的语义地址匹配数据集为对象开展实验,其结果证明了该工作能有效地解决地址匹配中存在的冗余,不完整或异常表达等情况,具有“高精度轻流程”的表现。证明了所设计模型可在弱监督训练数据下维持高水准表现。论证了“先自监督预训练-后有监督微调”的两阶段范式能极大地提高任务的准确率和有效性。(3)提出了新颖的地址语义-空间深度融合理论设计,对地址的语义-空间特征研究实现了从过去的“物理结合”到本研究中的“深度融合”的转变。构建了将空间位置信息与地址语义信息相融合的训练数据集,并在地址语义模型的基础上,通过对回归任务的微调训练搭建了语义-空间融合模型。实现了可被计算机理解的包含地址特有的寻址属性的地址表征,并设置了地址空间位置预测的下游任务以评价深度融合效果。该实验数据为地址语料及其对应的空间坐标,实验结果表明本研究设计的模型在该下游任务中相比前人的模型总有最佳表现,极大地提高了空间位置预测任务的精度。证明了所设计模型能够深度融合地址的语义和空间信息,并支持地址数据空间关联的应用任务。本研究在地址信息智能化、结构化和数值化方面,实现了其理论与建模方法上的创新及突破,解决了由大数据驱动下的地址数据质量低下及数量泛滥问题,提高了地址信息解析和挖掘的操作效率以及迁移学习能力,以推动关于城市地址模型的研究,促进智慧城市空间信息建设和大众化服务体系方法的研究与发展。
其他文献
目的探讨对妊娠合并糖尿病产妇实施产后综合护理在促进其康复中的效果。方法抽取2016年6月—2018年1月产后实施产后综合护理的44例妊娠合并糖尿病产妇为实验组,抽取产后实施
在凹凸棒土表面吸附马来酸酐(MAH)单体和过氧化二异丙苯(DCP)引发剂,将处理过的凹凸棒土填充HDPE,制备HDPE/凹凸棒土纳米复合材料.结果表明,纳米复合材料的拉伸和冲击性能都
光电化学解水制氢是现今最具前景的新能源转换技术之一。然而迄今为止,光电化学电池的转换效率及寿命与实际商用要求相差甚远,研发具有高光谱吸收率、适宜能带位置且抗腐蚀的
研究了固体聚氯乙烯(PVC)与甲基丙烯酸甲酯(MMA)在水体系中的超声辐照力化学非均相共聚反应.结果表明,超声辐照下水分子的裂解产生的声致自由基是体系发生反应的主要原因.体
高血压是导致心脑血管疾病的重要诱因,已经成为了全球性的公共健康问题。血管紧张素转化酶(Angiotensin-Ⅰ converting enzyme,ACE)在血压调节过程中起到了重要的作用。近年
乳腺癌是全世界妇女死亡的主要原因,同时也是治疗费用最昂贵的恶性肿瘤。化疗或放疗结合乳房切除术是目前临床主要治疗方法,然而这些疗法存在着失败的风险,并且通常会给病人留下创口。光动力治疗因其特异性高、疗效好、副作用小等优点在乳腺癌的治疗中引起了广泛的关注。光动力学疗法是以最小的创口使用光敏剂在光照条件下产生单线态氧从而杀死肿瘤细胞,但是光动力治疗通常只能杀死局部的肿瘤细胞,无法深入肿瘤内部,而残余瘤往
本文主要研究了数论中一些和式的算术性质.主要包括经典的Dedekind和的混合均值研究、指数和的均值研究、组合数论中推广的Fibonacci和Lucas数转换和式恒等式问题、以及一些S
分析了低熔点双组分合金填料性能、聚合物材料的结晶性、相对分子质量、极性及成型加工温度对填充体系的力学性能的影响.结果表明,合金的性能对材料有很大的影响,聚合物相对
毫无疑问,金融海啸对内存、Flash这样的需要大笔资金作为给养的制造商是具有毁灭性打击的。春节刚过,奇梦达(Qimonda)率先被击溃,宣布破产退出,NOR闪存产业,率先不支倒地的是Spansio
【正】 我国字典编纂已有2000多年的历史,其中经历了由课本式字表过渡到字典的曲折漫长的过程。伴随这个过程,宇典编纂实践经验也不断上升为体例原则,并逐渐条理化。随着两汉