网页文本地名地址信息识别与萃取方法研究

论文部分内容阅读

随着网络、云计算、物联网等信息技术的飞速发展,人类社会正以未有的速度阔步迈进“网络大数据”时代,特别网络自媒体信息的爆炸性增长,其包含的海量信息已经成为GIS领域重要的数据源。互联网作为现代社会最重要的信息发布、传播和交流的载体,蕴含着丰富的地理空间信息,已成为传统地理信息采集方式的有效补充。由于网络信息多样性、随意性、交互性等特点使得这些信息难以自动识别萃取,无法转换为GIS工具的数据源作进一步统计和分析,因此完成对网络信息中包含的地理空间信息的识别与萃取对有效利用“互联网大数据”至关重要。网络信息常以文本的形式展现,有效识别与萃取网络文本信息中的以地名地址形式出现的地理空间信息是有效的解决方式。网络文本信息中地名地址识别是指对文本信息进行语义分析,发现其中包含的规范的、不规范的地名地址信息。网络文本信息中地名地址萃取是指利用地名地址的以数学形式表示的属性值,实现准确萃取目标地名地址。本研究在分析了网络信息以及网络信息中地名地址特点的基础上,采用了一种基于“地名地址基因库”的网络文本地名地址识别与萃取方法,其研究结果如下:(1)网络文本信息中地名地址识别方法。定义了地名地址基因,釆用地名地址由地名地址基因组成,构建了面向某区域的地名地址基因库。改进了中文分词算法,以“地名地址基因库”为词典,识别网页信息中的地名地址基因。按照基因相邻规则组合基因来还原了网页信息中的地名地址串,以达到地名地址识别的目的。(2)网络文本信息中地名地址萃取方法。本研究尝试用数学方式解释地名地址固有的属性,依据地名地址事件属性、所在文本位置、字符长度以及词频信息,生成萃取规则树,并计算地名地址的萃取权重,依据萃取权重值实现精确萃取目标地名地址的目的。(3)实验证明本研究方法切实可行,有较好的效率和准确率,研究成果已经应用到“北京市西城区地理空间政务数据挖掘、分析及展示技术研究”项目中,实现了对网络信息实时获取并在WEB前端直观展现。

与本文相关的学术论文