论文部分内容阅读
随着地理信息系统技术的发展,以及受众群体的增加,人们对地理相关信息的关注越来越大。一方面互联网上的地理信息数据与日俱增,另一方面,用户对如何有效的查找到自己所需要的信息感到困惑。目前用户通过搜索关键词发现所需的数据与服务,却时常受到查全率和查准率不高的困扰。因此,面向地理信息领域的检索技术已逐步发展成为当前研究的热点。当前,地理信息检索的研究内容主要包括地理信息抽取,地理信息语义相似度计算,中文分词,索引结构构建以及检索结果排序等。长久来说,地理信息检索及其相关的服务,有广泛的研究前景。本文在面向对象的地理实体构造方法、PAM主题模型、语义标注方法、地理信息相似度计算算法、中文分词方法的基础上,提出了基于语义标注的PAM主题模型地理信息检索方法。 本文主要研究了以下四方面内容: (1)按照语义约束的原则把地理空间信息分解为最小单元,并对该单元的主题属性、地理位置信息以及时空关系相关信息进行封装构成最小逻辑单元,构建满足检索系统高效查询机制需求的地理实体四元组模型,并结合语义标注算法,对以四元组模型为子节点构建的PAM模型进行语义标注。 (2)研究了地理信息检索的一般过程,搭建了地理信息检索系统总体框架,并依据地理信息检索特点构建了索引的逻辑结构和物理结构,将归类后的信息与关键词信息进行结合,形成分类索引。 (3)分析了中文分词、主题相关度计算两大重要技术模块,中文分词模块主要利用ICTCLAS分词组件对含有地理信息的网页进行分词处理,有效的提高了分词效率;主题相关度计算模块通过构建地理信息检索模型并在此基础上结合PAM主题模型进行主题和地理范围两个方面的相似度评价。 (4)以旅游地理信息为基础,将基于语义标注的主题模型运用于旅游地理信息检索。根据信息类别的不同,将旅游地理实体实施层次划分,把旅游地理实体的特征数据进行高效、有序的组织与存储,并对不同的问句类型定义了不同的查询模板,为用户建立完整、可靠、快速的检索服务。 在基于语义标注的PAM主题模型地理信息检索中,对地理实体进行语义标注,可以解决同义词与歧义的问题,而PAM主题模型可以同时描述主题与词之间的关联性,为地理信息检索提供了一种新的思路。