论文部分内容阅读
传统的地理信息系统领域(Geographic Information System,GIS)通过测绘、数字化等手段获得基于几何坐标形式的空间信息,并对其进行和分析。但是,自然语言文本也是一种重要的知识来源。随着Internet快速发展和电子文档的迅猛增长,从文本中识别出有用的空间信息具有极其重要的意义,通过图文映射匹配以及与GIS相结合,帮助用户追踪感兴趣的事件或人物,同时为地理信息检索(Geographic Information Retrieval,GIR)、移动位置服务(Location-Based Services,LBS)、自然语言查询等各种应用提供数据基础和技术支持。
本文致力于解决从中文文本中智能化获取空间信息的几个关键技术问题,围绕中文地理命名实体与实体间空间方位关系识别两大主题,利用自然语言处理工具、语义词典、机器学习理论,设计了不同的识别算法,同时提出了一套面向中文文本的空间关系分类及标注体系,旨在解决关键技术问题的同时,推动空间语料库的建设,便于空间信息抽取成果与GIS相结合。具体的研究内容和取得的成果包括:
(1)地理命名实体识别
由于中文的特殊性,其命名实体识别与中文分词交叠在一起,而现有分词方法或命名实体识别仅考虑字词特征,未能引入句法、语义等知识。针对这种局限,本文提出了一种融合地名构词规律和句法依存关系的地名识别方法。通过对地名的内部结构、边界条件、长距离依存关系等几个方面进行探索,将字词特征和句法依存关系融合在一个模型中。实验结果表明,综合利用这些信息能较大程度增强分词系统的地名识别能力。
(2)面向文本的空间关系分类与标注
为了从文本中抽取地理命名实体间的空间关系,首先要对关系做一个完整的定义和分类。本文系统地分析了汉语中空间关系的表述特征,同时参照GIS对空间关系的定义和分类,在前人研究基础上,建立起一套适合“文本-地图”转换的面向信息抽取的空间关系分类系统,将其分为拓扑、方位、距离和隐喻四大类,各大类下再细分为若干小类。同时形成了一套基于XML的关系标注规范体系。在这套规范体系的基础上,以《中国大百科全书(地理分册)》为原始语料,开始构建文本空间关系语料库,并取得了一定的进展。
(3)地理命名实体间方位关系识别
分别用基于规则和基于统计的方法研究文本中空间方位关系的抽取:在规则方法研究中,设计了一个以空间词汇类型和句法依存关系为硬性约束条件、以词汇语义相似度为软性约束条件的抽取模式;在统计方法研究中,利用树核函数方法将关系识别问题转化为分类问题。分别从模式匹配和相似度分类两个不同的角度探索两种不同的技术在方位关系识别中所起的作用和效果。实验结果表明,基于规则的方法识别精度高,能有效地控制错误率,有较高的实际应用价值。树核函数法虽然处理结果与之相比还有一定差距,但由于其对语料要求低,构建分类器简洁、快速、人工干预少,具有很大的研究潜力。