【摘 要】
:
地址匹配作为地理编码中关键的一环,是智慧城市建设中重要的组成部分。完整意义的地址匹配分为地址分词和地址匹配两部分,地址分词为地址匹配提供分词服务。由于中文地址的复杂多样性和不规范性,造成中文地址分词过程中存在训练语料质量层次不齐、不规范地址影响分词效果,地址匹配结果的匹配率和精确率不高的问题。针对中文地址分词与匹配方法中存在的问题,本文展开了以下研究:(1)面向融合语料的中文地址分词方法研究。该方
论文部分内容阅读
地址匹配作为地理编码中关键的一环,是智慧城市建设中重要的组成部分。完整意义的地址匹配分为地址分词和地址匹配两部分,地址分词为地址匹配提供分词服务。由于中文地址的复杂多样性和不规范性,造成中文地址分词过程中存在训练语料质量层次不齐、不规范地址影响分词效果,地址匹配结果的匹配率和精确率不高的问题。针对中文地址分词与匹配方法中存在的问题,本文展开了以下研究:(1)面向融合语料的中文地址分词方法研究。该方法通过不同的指标定量化计算70000条语料集中地址数据的价值,按价值高低依次选取地址作为权重机制语料,并对选取权重机制语料库中的部分样本进行数据增广,形成融合语料。利用Bi LSTM+CRF模型训练语料进行分词实验对比,实验结果表明,在同训练语料量下,融合语料的中文地址分词方法可以有效提升中文地址的分词效果。融合语料方法分词结果的F1值和AP值都高于其它方法的F1值和AP值,在本研究实验中当融合语料库数据量达到60000条,数据增广比例为0.2时,融合语料的分词效果最优,F1值为91.6%,AP值89.3%。(2)基于多叉树结构的中文地址匹配方法研究。该方法基于地址元素的层级约束性,构建层级结构的多叉树存储标准地址库数据。在待匹配地址分词结果与多叉树结构地址数据匹配过程中,针对不规范地址匹配失败问题,结合层级回溯匹配与文本相似度匹配方法完成地址匹配工作。通过真实数据实验结果表明,基于多叉树结构的地址匹配方法在较其它匹配方法的表现更具优势。多叉树结构的地址匹配方法在两组数据实验中都得到更高的匹配率和更高的精确率,较高的匹配率和精确率都在92%以上,较低值也在85%以上。
其他文献
干旱是最常见且对人类社会影响最大的自然灾害,是由长时间水分亏缺造成的。洞庭湖流域位于长江中下游,对气候变化响应极为敏感,气象干旱频发。研究洞庭湖流域气象干旱有助于加强对流域季节性气象干旱时空变化特征及其影响因素的认识,为流域天气、气候旱涝灾害的防灾减灾提供参考。流域在一年中受到冬季风和西南季风、东南季风交替控制,各季节均有可能发生气象干旱,并且不同季节气象干旱的主导因素并不相同。因此,本文以洞庭湖
数学表征转译能力是学习数学的必备能力。数学表征转译能力的外在表现为能由数学知识的描绘性表征写出叙述性表征。不同认知风格学生有不同的表征倾向,那么不同认知风格学生的数学表征转译能力是否存在差异呢?本研究采用Felder的《所罗门学习风格量表》从447名高一学生中挑选言语型和表象型认知风格的学生,之后采用改编的《数学表征转译能力测试卷》测试学生的数学表征转译能力。本研究采用量化和质性研究相结合的方法,
由于矿山的开采和矿石的冶炼、农药和化肥等农用物质的不合理使用以及固体废弃物随意堆放等,全球范围内大面积的土壤受到重金属砷(As)的污染。水稻严重受土壤As污染的影响,这主要是因为长期处于淹水环境下的稻田土壤中As的化学形态主要是以亚砷酸盐(As(III))为主,而As(III)与Si在水稻根系共享转运蛋白Lsi1和Lsi2。因此,针对孔隙水中As(III)为As的主要化学形态,而且As(III)与
长江独特而复杂的江湖生态系统蕴育了丰富的生物多样性。近年来,修闸建堤等一系列人为干扰活动,使原本与长江相通的湖泊发生阻断、分割,造成人为的江湖阻隔,成为威胁鱼类群落结构的关键因素。而以往关于江湖阻隔对鱼类多样性的影响多为物种多样性层面的,对鱼类分类结构及群体遗传多样性层面的研究较少。本论文选取了长江流域有代表性的阻隔湖泊和通江湖泊为研究区域,通过历史野生鱼类资源调查数据的整理,来分析江湖阻隔对鱼类
我国一直推行九年制义务教育,目的是为了让每个孩子享有教育公平的权利。在2011年版的《义务教育生物课程标准》的课程基本理念中提出,所有的初中学生都需要学习生物学,也可以学好生物学。基于全国各地区各学校都显示生物学学困生的存在,并且数量一直在增加;另一方面,在教学过程中,生物学教师大多会把更多注意力放在学优生身上,而忽视了学困生的引导和培养。以明德启南中学为例,通过对该校2018级学生生物学学习现状
陶瓷是古老而神秘的一项艺术活动,它不仅传承着古代劳动人民独具匠心的智慧,也谱写着华夏人民源远流长的文化脉络。陶瓷不仅是物质的艺术,更是精神的艺术。现代手工陶瓷作为陶瓷艺术的重要分支,在传递制瓷者的情感价值和艺术思维的同时,也丰富了大众的生活情趣,并在一定程度上反映着人们的审美追求。海洋生物奇特的形态和绚丽的色彩能为设计师提供许多源源不断的新思路,本课题通过对海洋元素的特征分析及归纳,再巧妙的应用于
在地表水、地下水甚至是饮用水中能检测到许多危险和有毒的有机胺,对氨基苯酚(PAP)就是这些污染物中的一种。PAP对微生物有毒且难以生物降解,因此可以在常规废水处理厂的废水中检测到PAP。如果将这类废水直接排放到环境中,残留的PAP可能会在环境中累积并会对水体造成不利的生态破坏,从而对人体健康造成巨大威胁。因此,从环境和健康的角度出发,迫切需要开发一种有效的方法来降解废水中的PAP。本文采用PAP污
依据《普通高中生物学课程标准(2017年版)》编制的各版本生物学教科书于2019年陆续在全国不同地区使用,为了解不同版本生物学新教科书的设计特点及其使用现状,以更好地指导一线教师的教学工作,本研究运用调查研究法和比较研究法对生物学教科书课后习题展开研究,提出运用课后习题培养学生生物学学科核心素养的教学建议,同时,对课后习题的编制给出了反馈意见。本研究首先对湖南省不同地区高中“课后习题”的设计与使用
近些年来,我国老龄化态势发展迅猛,各类型养老机构不断建立,养老产业规模迅速发展。由于对养老场所的迫切需求,使得我国的养老机构室内设计更加侧重于基本功能需求及承载能力,容易忽视空间设计中的人文关怀,尤其是对老年群体情感需求方面的设计关怀。因此,找到能满足老年群体身心需求的老年疗养空间系统设计创新方法对社会养老品质提升有着极为重要的现实意义。文章主要研究目的是借助“形意场”理论体系分析老年疗养院室内设
集中供热是我国北方地区的一项重要民生工程,而传统供热企业普遍存在信息化、智能化水平不足的问题。在对陕西榆林能源集团红山热力公司进行实地调研后,发现主要存在以下三点问题:(1)供热过程中仅依靠工业组态软件进行设备控制,智能化程度低,系统界面简陋,亟需信息化升级;(2)未能按需供热,导致热户的用热体验不佳,亟需引入精准调控热户室温的技术手段;(3)调度人员在进行热负荷预测时以主观经验为主,造成资源浪费