论文部分内容阅读
地址切分标注是把文字地址字符串切分为地址要素词串,并给出地址要素词串类型的过程。它是地址地理编码(Address Geocoding)过程中的基础环节,对于整个地址地理编码结果具有重要影响。由于中国地址系统的不规范性以及中文无分隔符的特性,中文地址切分标注一直是一个研究难题。
本论文基于国内外地址切分标注研究,以及中文分词(Chinese Word Segmentation)的研究,设计了一种基于N-最短路径(NSP)和层次隐马尔科夫模型(HHMM)的中文地址切分标注算法,旨在高效识别未登录词,提高切分标注准确率,并得到结构化、层次化的地址要素类型信息。待切分的中文地址字符串,首先经过N-最短路径算法进行粗切分,得到少量、高召回率的粗切分结果;这些结果作为层次隐马尔科夫模型求解最佳状态转移序列的输入,经过计算,最终得到具有层次化地址要素类型信息的地址切分结果。
为了验证设计的可行性,实现了一个中文地址切分标注原型系统,并以北京市和西安市地址进行了实验。针对北京市1000条地址进行实际地址批量处理,测试集测试结果切分准确率为85%,切分标注准确率为75%。通过对这1000条地址结果样本的详细分析,发现限制地址切分标注准确率的主要因素之一为数据稀疏问题。