面向网页文本的地理信息要素提取与空间定位方法研究

来源 :山东农业大学 | 被引量 : 0次 | 上传用户:litianjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术与计算机技术的飞速发展,网络信息中涉及的地理信息内容越来越多,并逐渐呈现出一种指数爆炸增长趋势,成为地理信息获取与更新的重要的途径。互联网信息中的地理信息与其他网页内容一样,以文本的形式存在,非结构性化特征使这些信息不容易被机器自动识别提取出来,无法作为GIS重要数据源进行进一步的统计和分析,同时海量互联网网页文本中也不乏存在一些泄露国家机密、危害国家安全的地理信息数据,互联网中存在的海量地理信息要素数据亟需被自动提取出来并转换为具有地理坐标的空间数据进行分析。对网页文本的地理信息要素提取与地理信息空间定位是解决这些问题的有效方法。网页地理信息要素提取是将网络爬虫所获取的文本进行语义分析处理,并将其中所包含的地名地址与地理实体有效提取。地理信息要素空间定位则是对提取出的要素通过相似度计算、标准化、地理信息要素匹配处理等方法赋予空间坐标,以便GIS分析工具并进行分析处理。针对网页文本中地理信息的识别提取与空间定位问题,研究结果主要包括以下几个方面:(1)网页文本中地理信息要素提取方法。在国内外研究现状基础上,利用隐马尔可夫模型机器学习的方法对网页文本数据进行词性标注预处理。通过地名地址前后缀特征词识别窗口提取候选地名地址,根据制定的规则对候选地名地址进行匹配过滤,提取地名地址;通过HMM词性标注与词性识别窗口相结合提取候选地理实体,根据地理实体的验证规则进行过滤,提取地理实体。最后利用网页文本数据进行实验验证。(2)提出地名地址与地理实体空间定位策略。地名地址在空间定位之前,首先根据地名地址标准结构体进行标准化处理,并且根据地名地址的前后文信息确定其的大体区域范围,然后通过与定位参考库中的地名地址进行匹配比对,匹配成功的确定空间地理坐标,匹配失败无法确定位置的按空间定位模糊策略进行处理。地理实体空间定位采用实体名称相似度计算的方法,取与地理实体库中相似度最高的地理实体空间坐标作为待定位实体坐标,如果相似度均不在设定阈值范围,则无法对待定位地理实体进行定位。(3)根据文中地理信息识别提取与空间定位方法,对互联网中的多个网站进行地理信息要素提取与空间定位,并在原型系统的前端界面进行了直观的展现。
其他文献
目的:建立稳定的干酪素法测定榛叶鞣质的方法。方法:用干酪素法测定榛叶鞣质。优化条件为:以70%丙酮提取,干酪素用量400mg,1.5%碳酸钠显色后30min测定。结果:优化方法线性关系良好
本文以广交会为例,从参展商的展品选择,展馆的节能改造,布展与撤展和展会绿色发展计划的制定与实施等方面对绿色广交会的发展现状进行分析,揭示广交会在发展绿色会展过程中面
期刊
<正>农行实施"县域蓝海战略"是经营转型、实现又好又快发展的战略性举措。县级支行身处实施"县域蓝海战略"的第一线,深入系统地研究其实施"县域蓝海战略"的难点,并寻求克服难
治疗心肌缺血时,首先对引起疾病的异常合立体服用蒙孜吉和木斯合力,排出异常合立体(体液)后采用改善血液循环、促进心肌血液循环以及保护支配器官作用的药物进行治疗,提高疗效,
运用比较分析、数理统计等方法对2008年到2011年期间奥运会、柏林田径世锦赛、大邱田径世锦赛男子十项全能前8名以及亚运会男子十项全能前6名的成绩进行分析,结果显示:①世界
综述灯笼草抗肿瘤作用的研究进展,分析了灯笼草抗肿瘤活性成分及其作用机制。
公路桥梁施工中,软土地基施工是一个难点。针对目前我国公路桥梁软土地基情况以及施工现状,对软土施工技术的应用进行分析,提出软土地基施工的几个技术要点,并得出对应的几点
运用文献资料法、数理统计法和比较分析法,对世界高水平十项全能运动员身体素质、成绩模式及身体素质指标进行了分析与研究,找出影响我国男子十项全能成绩落后的主要因素,并
介绍了常用的两种网上购物车技术实现方案 ,提出了一种采用数据库技术实现网上购物车的新方法 ,并给出了设计思想及具体实现策略。