基于改进的逆向最大匹配算法的中文地址编码研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:Joexie2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国经济社会的逐步发展,城市管理问题日益突出。由于地理信息系统的快速发展,利用地理信息系统解决城市管理问题成为了相关部门的重要手段。其中一个重要的手段就是中文地址编码。中文地址编码一般包含中文地址标准化、中文分词、地址匹配以及空间定位等步骤。对于地址编码,国外发达国家的应用与发展早于我国,也已经比较成熟了。由于我国地址编码技术不够成熟,特别是由于中文地址的特点,以及数据采集手段、使用标准的不一致,导致城市范围内的地址存在着许多诸如门牌号、楼号和路名缺失、重复、混乱等不规范的情况。如果单纯地按照规范重新采集这些数据信息,工作量将十分庞大,几乎是无法实现的。因此,我国进行中文地址编码研究与应用具有一定的挑战性。这就急切需要提出适用于我国地址编码的中文分词算法,并且利用这种算法对中文地址进行标准化处理、分词与匹配。这样就能把来自于城市各个行业的非空间数据转化成空间数据,运用到城市管理的具体实践中去。  本文在研究了中文地址的特点、存在问题与组成的基础上,研究了中文分词的技术特点,以及现有的四大类中文分词算法,并以此为基点,提出了改进的基于字符串匹配的逆向最大匹配算法,然后根据这种分词算法,提出了合适的中文地址匹配算法。介绍了一种基于上述算法的地址匹配原型系统的设计与开发,介绍了该系统的几个模块,并利用武汉市的部分地址对该系统进行了实验。实验结果表明,该算法在准确率上基本满足了实际运用的需求,说明该算法适用于中文地址编码工作,并可能会有一定成效。
其他文献
该文共以下六个部分:地价指数研究概述;地价指数编制的理论基础;地价指数编制的关键技术问题;地价指数信息采集技术方案;地价指数编制程序方法;地价指数分析.
文章包括六个部分:第一部分简要介绍了重庆市的概况.第二部分对城区用地进行了评价,并简要地介绍了重庆的城市拓展史.第三部分对重庆城市用地和城市发展之间的互动关系作了实
党校函授教育以培养德才兼备、具有相应专业知识和管理能力的领导干部和人才为宗旨,以帮助学员“掌握基本理论、丰富专业文化知识、增强党性修养、提高实际能力”为培训目标
学位
中国生态旅游可持续发展的对策有:①加强对生态旅游者的生态管理.旅游活对环境的负效应很多来自于旅游者.因此必须加强对游者的生态管理.首先,应确定生诚旅游区合理的旅游容
21世纪被称为海洋世纪,研究海洋与人类活动之间的关系,有助于国家战略制定和社会发展进步。近年来,有关中国南海主权和海洋资源开发权的争议问题日益突出,重新系统整理并深入研究
学位
城市立体形态特征是城市物质形态的代表性体现,是城市历史沿革、城市规划、政治经济文化等综合反映,是人类活动所塑造的最独特的过程。随着我国城市建设活动的不断深入,众多的城
我国处于两条全球性地震带的夹持地区,地震活动十分频繁,是全球性大陆地震最集中、活动性最高的地区之一。2008年5月12日,四川省汶川县发生了Ms8.0级特大地震,强烈的地震作用触发
党的十八大提出了建设社会主义文化强国的宏伟目标,指出,“加强重大公共文化工程和文化项目建设,完善公共文化服务体系,提高服务功能。”①中央电视台作为国有公益性文化单位