论文部分内容阅读
随着我国经济社会的逐步发展,城市管理问题日益突出。由于地理信息系统的快速发展,利用地理信息系统解决城市管理问题成为了相关部门的重要手段。其中一个重要的手段就是中文地址编码。中文地址编码一般包含中文地址标准化、中文分词、地址匹配以及空间定位等步骤。对于地址编码,国外发达国家的应用与发展早于我国,也已经比较成熟了。由于我国地址编码技术不够成熟,特别是由于中文地址的特点,以及数据采集手段、使用标准的不一致,导致城市范围内的地址存在着许多诸如门牌号、楼号和路名缺失、重复、混乱等不规范的情况。如果单纯地按照规范重新采集这些数据信息,工作量将十分庞大,几乎是无法实现的。因此,我国进行中文地址编码研究与应用具有一定的挑战性。这就急切需要提出适用于我国地址编码的中文分词算法,并且利用这种算法对中文地址进行标准化处理、分词与匹配。这样就能把来自于城市各个行业的非空间数据转化成空间数据,运用到城市管理的具体实践中去。 本文在研究了中文地址的特点、存在问题与组成的基础上,研究了中文分词的技术特点,以及现有的四大类中文分词算法,并以此为基点,提出了改进的基于字符串匹配的逆向最大匹配算法,然后根据这种分词算法,提出了合适的中文地址匹配算法。介绍了一种基于上述算法的地址匹配原型系统的设计与开发,介绍了该系统的几个模块,并利用武汉市的部分地址对该系统进行了实验。实验结果表明,该算法在准确率上基本满足了实际运用的需求,说明该算法适用于中文地址编码工作,并可能会有一定成效。