地址文本相似度算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:spaiwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地址在生活中扮演着弥足轻重的角色。地址的表达方式复杂多样,在不同的应用场景下为了对地址进行统一标准化,需要将生活中的地址与数据库中的标准地址进行精确匹配。本文以CCKS地址相似度数据集以及BERT(Bidirectional Encoder Representation from Transformers)语言模型为实验基础,针对数据集中存在的数据缺失、数据不平衡等问题以及模型中自注意力机制依赖信息提取不充分的问题,从数据预处理、模型结构、模型集成等三个方面进行优化与创新。主要工作和成果如下:(1)提出了多种针对地址文本的数据预处理方法,包括针对缺省或不规范地址文本的补齐扩充方法,该方法利用AC(Aho-Corasick)自动机算法对输入地址进行匹配筛选后输出地址文本补齐可选项,再根据可选项的数量判断是否补齐来避免引入错误信息;另外还包括通过争议点分解来减少包含多个标签差异点的复杂数据、匹配性传递来扩充数据、组间去重来减少数据冗余等其他数据预处理方法。实验证明,提出的数据预处理方法通过完善训练数据信息、降低训练数据复杂度等提高了模型的性能。(2)提出了一种自注意力机制优化方法,该方法针对原自注意力机制存在关注信息范围狭窄和现有基于高斯分布的优化方法存在关注信息单调、固化等问题,采用在原自注意力机制的基础上将高斯分布作为增值的形式,并结合高斯分布的自身特性、自注意力机制中字与字之间的关系、相对位置广泛的表示性、不同网络结构提取同类特征等四个要点来控制高斯分布的期望与数值大小。实验证明,提出的自注意力机制优化方法通过自适应修正自注意力机制中的关注信息提高了模型的性能。(3)提出了一种模型集成数据分割方法,该方法针对地址相似度数据集中存在的数据不平衡会在模型集成时进一步放大的问题,在子数据集的生成过程中,不再让数据量占比小的标签数据参与交叉分组数据分割,而总是让该标签数据以全数据量加入其他标签经过数据分割后的子数据集。实验证明,提出的模型集成数据分割方法通过优化子模型的训练数据分布由下至上提高了集成模型的性能。
其他文献
<正>很多老年糖友反映,一直坚持锻炼身体,可是走路走得腿都抬不起来了,血糖还是没控制住。是锻炼方法不对,还是有什么其他问题?吃够了再动比较好很多人都有这样的经验:出去走走、运动一下,血糖就非常好,有时连续锻炼若干天,药都可以减了。这说明在运动中,糖或者其他营养物质的代谢会加快,这种加快在不运动的时候也同样可以收益。所以,有的人在运动的时候,血糖控制就比较好。
期刊
【目的】探究海口市耕地土壤有机质及pH与微量元素的相关性,为当地农业生产科学施肥及土壤微量元素的高效利用提供参考。【方法】以海口市耕地土壤为研究对象,采用野外调查与室内分析相结合的方法,测定土壤pH、有机质、有效态铁(Fe)、有效态锰(Mn)、有效态铜(Cu)、有效态锌(Zn)、有效态钼(Mo)和有效态硼(B)含量,并对土壤有机质及pH与微量元素进行相关性分析。【结果】海口市耕地土壤pH、有机质含
期刊
韩国作家金爱烂的《水中的歌利亚》描绘了一个从暴雨中逃难的故事,在字里行间能看到人与自然的密切关系,看到作者对于人与自然关系的思考。结合海德格尔的“人在世界之中”“诗意地栖居”“天地神人四方游戏说”等生态美学思想,能够挖掘出《水中的歌利亚》所蕴含的一系列生态内涵,包括人类生活受自然环境影响、人类对自然的破坏终将危及自身、人类在自然面前的渺小与坚韧、感受自然本身的生命力等,展现出人与自然的密切联系。
期刊
在国家大力提倡低碳经济、绿色发展的背景下,具有节能环保、低碳排放等优点的新能源汽车行业得到快速发展。针对新能源汽车快速发展中面临的配送中心选址问题,构建了一个基于系统聚类和重心法相结合的选址模型并给出求解方法。通过实例分析得出:在新能源汽车进行多个设施选址时,采用系统聚类法能够合理快速的实现选址样本的分组,明确选址的数量;各组分别采用单重心法保证了每个选址中心到各个服务区域的配送成本最小;建成了有
期刊
生态美学,从广义方面说,即是生态文明时代的美学,应从大历史观着眼,从经济与社会、哲学与美学转型的视角认识这种转型的必然性;从狭义方面说,生态美学是当代的自然生态美学,不同于人化自然的实践美学,关注的是人与自然关系中的共生之美。它在中国传统文化中表现为“生生美学”。
期刊
目的:观察人脐带血血浆外泌体(UCB-Exos)对帕金森病小鼠模型运动功能的影响,探究其免疫干预作用和神经保护机制。方法:改良超速离心法分离UCB-Exos,透射电镜、动态光散射技术和Western blot法进行鉴定。将C57BL/6小鼠随机分为对照组、模型组[腹腔注射1-甲基-4-苯基-1,2,3,6-四氢吡啶(MPTP)造模]、治疗组(造模后尾静脉注射UCB-Exos)和预保护组(造模前尾静
期刊
随着光伏行业的飞速发展,PERC太阳电池技术已无法满足太阳电池光电转换效率的进一步提升,TOPCon太阳电池因具有高光电转换效率,被认为是下一代太阳电池技术的可选方案。针对TOPCon太阳电池的多晶硅层的磷掺杂量、推进温度及推进时间对多晶硅层、硅衬底中磷掺杂特性及电性能参数的影响进行了研究。研究结果显示:在隧穿氧化层及多晶硅层厚度分别设定为1.5和130.0 nm的条件下,磷掺杂参数设置为通源流量
期刊
企业新闻宣传即企业通过新闻报道的方式向外界传递与本企业相关的信息,包括生产技术、经营状况、未来规划等。在企业发展的每一个阶段,企业新闻宣传都有着重要的作用,其不仅有助于企业树立良好的形象,还能够增强企业的凝聚力,传递积极向上的能量。传统媒体背景下,大部分企业主要通过报纸、广播、电视等媒体开展新闻宣传工作,但是随着信息技术的快速发展,融媒体逐渐成为信息传播的主要手段,对企业新闻宣传工作也产生了极为深
期刊
厌氧发酵产酸工艺可以将剩余污泥中的有机质分解并转化为挥发性脂肪酸(VFA)。氧化还原介体(ROMs)也称电子穿梭体,具有可逆地被氧化和还原的特性,借助ROMs的电子传递和生物催化功能可能促进厌氧产酸。本研究聚焦于ROMs对剩余污泥厌氧过程中VFA生成的影响,探究了不同ROMs对厌氧过程中VFA产量、有机物释放和微生物群落结构的影响机制,进行ROMs的筛选;在此基础上分别进行ROMs协同氯化铁(Fe
学位
为了加大对祁连山生态环境保护的力度,在祁连山康乐林区采用野外采样室内分析的方法,研究了4种土壤有机碳和微量元素变化特征。结果表明,4种土壤剖面0~40 cm土层有机碳含量、有机碳密度和微量元素含量均值排序为暗厚干润均腐土>暗沃寒冻雏形土>草毡寒冻雏形土>钙积干润均腐土;4种土壤随着土壤剖面垂直深度的加深,有机碳含量、有机碳密度和微量元素含量在递减;暗厚干润均腐土、暗沃寒冻雏形土和草毡寒冻雏形土0~
期刊