论文部分内容阅读
随着互联网技术的发展,网页中所涉及的地理信息也越来越多,成为地理信息获取和更新的重要途径。网页中的地址信息是以文本化的形式存在,由于中文之间没有分隔符,大大妨碍了计算机直接理解此地址信息所描述的地理位置语义,使得这些地址信息无法转换为空间坐标映射到地图上,为人们提供精确的定位。因此,为了使计算机能够理解中文地址的位置语义信息,建立非空间信息到空间信息的映射,研究从互联网上获取的中文地址的语义解析方法具有重要的应用价值。本文以从互联网上通过网络爬虫获取的中文地址作为研究对象。针对文本化的中文地址的语义解析,本文采用基于统计的中文地址分词方法,该方法不依赖于地名词典,主要是先通过统计从互联网上爬取得的25万条地址数据构成的语料库的词频,计算相邻词语之间的互信息,词语的信息熵,然后对地名地址串进行全切分处理,得到所有分词方案,通过计算选择弧段开销最小的分词方案,最后通过置信度计算得到分词结果。在该基础上,本文采用了基于贝叶斯模型的中文地址要素语义标注方法对切分出来的中文地址进行语义标注,该方法通过构建中文地址要素的标注体系表,统计地址标注语料中每种地址表达模式的概率,并以标注状态作为节点构建一个地址表达模式树,记录经过每个节点的次数,然后计算出每个地址要素在某一个地址标注状态的费用和前一个地址要素最有可能的地址标注状态,通过回溯得到中文地址的语义标注序列。本文的中文地址语义解析方法采用来自于互联网的不同数量的中文地址数据进行实验,对不同数量的地址语料库的实验结果进行了深入的分析,并与其他方法进行对比分析。实验结果分析表明,在没有地名词典的条件下,本文方法对于中文地址的分词具有较好的效果,且能够对切分出的地址要素进行语义标注,使得文本化的中文地址能够直接被计算机应用于地理位置信息服务。