论文部分内容阅读
随着互联网的飞速发展,基于位置信息的服务在人们的生活中应用越来越广泛。互联网提供了丰富的地址信息,然而,由于互联网的开放共享特性,使得来自于互联网的中文地址表达方式多样化,存在结构混乱、不完整、信息丢失、信息冗余等问题,造成中文地址的位置语义信息存在模糊性、歧义性,大大妨碍了计算机直接理解此地址信息所描述的地理位置语义,使得这样的中文地址信息不能够被计算机直接用于位置服务。因此,为了使中文地址具有完善的位置语义信息,使其能直接的被计算机应用于地理位置服务,研究从互联网上获取中文地址的位置语义解析方法具有重要的应用价值。本文是以通过网络爬虫方式从互联网上获取的中文文本地址作为研究对象对中文地址位置语义解析方法进行研究。通过对中文文本地址数据集的分析,中文地址可以分为行政区划和路街牌号两部分。针对中文地址行政区划不完整的问题,首先,本文采用基于移动窗口最大匹配方法,提取地址字符串中的行政区划信息,返回此地址中所有可能的行政区划集合。之后,在此基础上本文采用一种基于集合运算的行政区划解析方法来消除移动窗口方法提取的行政区划集合的歧义性,提取行政区划集合中最完整、评估值最大的行政区划。针对中文地址路街牌号部分歧义性的问题,本文采用了中文地址解析与语义标注方法对中文地址信息的位置语义信息进行解析,该方法采用基于贝叶斯的中文地址要素切分方法、句法分析方法、语义标注方法对中文地址进行解析,得到一个完整的具有位置语义信息的中文地址。本文的中文地址解析方法采用了来自于互联网的中文地址数据进行实验,对实验结果进行了深入的性能分析,并与其他相关算法进行对比实验。实验结果分析表明,本文方法具有较高的准确性,对于中文地址信息中的行政区划提取与分析有良好的效果,且能够切分出地址要素信息并对其进行句法解析及语义标注,使得中文地址具有结构和位置语义信息,能够很好的直接被计算机应用于地理位置服务。