基于深度学习的地址规范和地址匹配

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:junyi2050
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物流行业的快速发展,快递已经成为了人们生活中不可或缺的一部分,每天数以亿计的快递不停的被各个物流运输车运送到世界各地。各个物流公司都纷纷投入对快递分拣系统的研究,让系统能够尽量快速自动地分拣更多的快递。然而,传统的快递地址规范化系统主要存在设计臃肿,地址处理效率低等问题,这些不足限制了分拣效率。良好的规范化系统需要将快递地址中关键信息保留,并带有严格的顺序层级关系。因此,如何有效地从大量的快递地址提取信息,并按照地址层级关系进行规划化具有重要的意义。一方面,本文提出将摘要生成网络模型应用于快递地址规范。在多数的摘要生成任务中,文本往往存在篇幅长且信息丰富的特点,这有利于摘要生成模型关注长文本中的语义信息。然而,本文的快递地址数据文本较短,关键元素的信息密集,应用传统的摘要生成模型容易丢失关键信息。为了提升摘要生成模型在短文本中的性能,提出了一种基于混合注意力的摘要生成模型(Hybrid Attention Based Summary Generation Network,HASGN),并应用到地址规范化任务中。首先,HASGN模型关注句子的语义信息,挖掘句子中地址的层级关系;其次,在每个句子中,模型会突出表示原句中重要的词语,并保留到摘要中。实验结果表明,该模型在生成规范化的中文快递地址任务中有更高的准确率。另一方面,在快递地址填写时由于人们的认知、书写等差异,造成一个地址有多种表达。虽然多种表达形式的地址数据不容易区分,但是它们都有同一个语义,即表示同一个地址。因此,本文提出了一种基于强化学习的序列匹配模型(Deep Enhanced Matching Network,DEMN),将不同表达形式的地址数据进行地址匹配。DEMN的目的是通过将多种地址数据映射到同一向量空间进行匹配;同时考虑到序列模型的信息表达的限制,引入强化学习来提升模型的性能。在地址匹配的实验结果表明,该模型能够有效地捕捉到地址元素之间的关系并生成更有效的地址空间表达。最后,本文基于物流数据的特性设计了一个智能地址规范系统。该系统拥有地址规范及地址匹配等功能,能够实时地处理地址数据。同时,离线规范和匹配功能为系统处理大数据提供了依据。
其他文献
当下,铁路货车运行故障动态图像检测系统(TFDS)主要通过人机结合的模式实现轨边故障图像检测。随着计算机视觉和数字图像处理技术的发展,TFDS故障识别正朝着机控自动检测模式的方向发展。本文在已有TFDS故障识别的基础上,通过描述边界图像中轮廓曲线的弯曲度特征,提出两种曲线弯曲度约束圆检测算法;结合目标物轮廓曲线的形状特征,实现了TFDS图像中锁紧板紧固螺栓松动故障的自动检测。边缘检测在数字图像处理
中低速磁浮交通作为一种新型城市轨道交通制式,因其曲线通过能力强、坡道能力强、振动噪声小、建设成本低且周期短等多方面的优势受到了越来越多城市的关注,并相继开通了两条运营线路,在未来有着良好的发展潜力。电磁铁作为中低速磁浮车辆悬浮以及导向的关键部件,与此同时磁轨关系对车辆运行动力学性能有显著影响。磁轨关系的本质是闭环控制,将数量较多的控制器进行简化并保证一定精度,可大大提高计算效率。过去对磁轨关系的简
从1999年国务院转发了教育部等部门《关于进一步加强少数民族地区人才培养工作的意见》(国办发[1999]85号)文件开始,内地新疆高中班发展了近20年的历程。回首这20年,内地新疆高中班从不知道如何发展到规划发展,培养出的学生遍布全国各地,内地新疆高中班取得的成绩有目共睹,但也存在一些问题,例如宗教信仰规定的问题、学生管理问题、教学管理问题等。为了更好的探索内地新疆高中班的教育问题,本文从管理角度
东方国家权力距离远,中国作为典型的高权力距离的国家,企业组织内领导对员工吸引力较低,而社交媒体的出现改变了人们互动的方式,提供了在人际交往中增加吸引力的可能性。新型领导下属交流方式的出现是否改变了领导与下属的关系?带着这个问题,本文将研究目光放置于领导在新型媒上自嘲对其员工的人际吸引力的影响上,进行了系统的研究。本文通过对相似性-吸引力、社会认知等理论、自嘲式幽默及人际吸引力等相关理论和研究进行梳
本论文主要在拒绝会话策略的中日对比方面进行研究。主要以20代左右的在校本科生及研究生为调查对象。以同学,朋友间的拒绝会话为数据基础,对比两种语言在特定情境下的的拒绝会话策略,总结语言行动的特征,并找出形成这种语言行动的特征的原因。通过目前为止的研究可知,中文母语者和日文母语者在拒绝他人时,有着各自不同的语言特征,并且两种语言在拒绝时所采用的策略也有所明确。但是,针对于以下三点的研究,数量较少且并没
动词作为一个主要的词类,在各种语言中都起着重要的作用。饮食动词是动词的一类,在日常生活中具有重要意义,因此研究饮食动词具有一定价值。从隐喻角度对饮食动词进行研究可以丰富俄汉饮食动词的研究成果,拓宽俄汉饮食动词在语言学中的研究视角。本文从《现代汉语词典》、《俄汉详解大词典》中筛选并明确了研究对象,对俄汉饮食动词进行了界定。依据北京语言大学BCC汉语语料库和俄语国家语料库((?)),以饮食动词“(?)
否定现象在言语交际中普遍存在。在英语中,既可以用否定标记符号“no”,“not”等来表达否定;也可以用包含what等疑问词的话语来表达否定。本研究关注的是包含疑问词what的否定性话语,已有相关研究从句法、语义、功能和产生机制等方面入手对此类话语进行了研究,但对其使用时出现的共现话语鲜有研究;而该话题在其它语言同类话题的研究中已有涉及,本研究将集中探述这一问题。本研究运用塞尔的言语行为理论,以美国
能源问题一直是制约人类社会发展的一个重要因素,人类社会的每次变革都离不开能源的发展。当今世界,发展新能源迫在眉睫,以氢能源为主要动力的燃料电池混合动力机车具有环境友好、成本低等特点,已经逐渐发展成为一种极具潜力的新型轨道交通工具,受到了广泛的关注。将氢能源应用于城际动车组,以燃料电池作为动车组主要供电电源,摆脱了线路牵引供电系统,在城际交通中发展潜力大,灵活性高,为城际交通的发展提供了新思路。本文
随着对人类研究的不断加深,语言学研究也逐渐将关注点从语言本身转移到语言使用者。对语言使用者的研究则不可避免的集中在对人的思想、意识的研究。然而意识作为一种非物质现象,存在于人的机体内部,很难直接对意识进行研究,我们只能通过其外部表现方式——语言来研究其意识表征。由此衍生术语——“语言意识”(языковоесознание),即通过外在的语言手段探索其内涵的意识映像。语言意识涉及相互交叉的两个不同
自大卫·奥格威在20世纪50年代提出“品牌形象说”(Brand Image)这一概念后,品牌形象塑造成为众多品牌管理者和设计人员关注的焦点,它是市场竞争中制胜获利的法宝,也决定了品牌是否具有长久的生命力,具有十分重要的战略意义。对于金饰行业来说,从市场情况上分析,伴随着80年代首饰行业的复兴,市场竞争已从产品和价格的竞争逐渐转向品牌的竞争,越来越多的国内金饰企业意识到品牌在市场竞争中的重要性,纷纷