论文部分内容阅读
随着互联网技术和移动通讯技术的迅速发展,空间位置服务行业需求急剧上升。空间位置服务的质量很大程度上取决于兴趣点(Point of interest,POI)信息的数据量、准确性和现势性。POI信息包含:名称、类别、位置信息和属性等。POI采集主要有专业公司生产和VGI大众采集两种方式,前者生产效率低下,后者管理起来较为困难,而且均存在POI信息的位置描述尚不完善的问题,普遍缺乏相对位置和绝对位置描述。目前网络资源发展迅速,其中包含了大量的POI信息,成为POI信息的重要来源。从网页文本中抽取POI信息成为一种新型的POI信息采集手段。本文重点研究网页文本中POI信息的获取方法,为大规模获取POI信息探索了一条新途径。主要内容包括以下几个方面: (1)基于主题网络爬虫的POI相关网页抽取:在总结POI各类别的名称关键字的基础上,利用搜索引擎将POI信息的类别作为主题检索词进行URL聚焦再用网络爬虫技术爬取这些空间敏感网页实现各个类别的POI相关网页的获取。 (2)网页文本中POI信息获取采用条件随机场模型的方法来识别出非嵌套简单地名以及POI名称信息。在分析中文地址模式的基础上提出?