中文地址位置语义解析方法的研究

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户:wxyz9876
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,基于位置信息的服务在人们的生活中应用越来越广泛。互联网提供了丰富的地址信息,然而,由于互联网的开放共享特性,使得来自于互联网的中文地址表达方式多样化,存在结构混乱、不完整、信息丢失、信息冗余等问题,造成中文地址的位置语义信息存在模糊性、歧义性,大大妨碍了计算机直接理解此地址信息所描述的地理位置语义,使得这样的中文地址信息不能够被计算机直接用于位置服务。因此,为了使中文地址具有完善的位置语义信息,使其能直接的被计算机应用于地理位置服务,研究从互联网上获取中文地址的位置语义解析方法具有重要的应用价值。本文是以通过网络爬虫方式从互联网上获取的中文文本地址作为研究对象对中文地址位置语义解析方法进行研究。通过对中文文本地址数据集的分析,中文地址可以分为行政区划和路街牌号两部分。针对中文地址行政区划不完整的问题,首先,本文采用基于移动窗口最大匹配方法,提取地址字符串中的行政区划信息,返回此地址中所有可能的行政区划集合。之后,在此基础上本文采用一种基于集合运算的行政区划解析方法来消除移动窗口方法提取的行政区划集合的歧义性,提取行政区划集合中最完整、评估值最大的行政区划。针对中文地址路街牌号部分歧义性的问题,本文采用了中文地址解析与语义标注方法对中文地址信息的位置语义信息进行解析,该方法采用基于贝叶斯的中文地址要素切分方法、句法分析方法、语义标注方法对中文地址进行解析,得到一个完整的具有位置语义信息的中文地址。本文的中文地址解析方法采用了来自于互联网的中文地址数据进行实验,对实验结果进行了深入的性能分析,并与其他相关算法进行对比实验。实验结果分析表明,本文方法具有较高的准确性,对于中文地址信息中的行政区划提取与分析有良好的效果,且能够切分出地址要素信息并对其进行句法解析及语义标注,使得中文地址具有结构和位置语义信息,能够很好的直接被计算机应用于地理位置服务。
其他文献
要跨越中等收入陷阱,需加强对经济失速、老龄化和产业空心化等风险的防范。为了防范系统性风险,要研究和建立重大危机的预警、应对机制,要有效释放局部风险并隔离不同类型风
为研究高速铁路对区域旅游空间结构演化的影响,以河南省为例,采用旅游中心度分析法对河南省的旅游空间结构现状进行分析。结果表明:首先,河南省的旅游空间结构第一梯队为郑州
<正>国有企业在国家经济社会运行中起着极为重要的作用。《审计法》第二十条规定,"审计机关对国有企业的资产、负债、损益,进行审计监督"。国有企业审计是国家审计实现"免疫
为全面了解进口烟叶商品等级的风格品质状况,提升进口烟叶商品等级的品牌适配度,采用改良的《中式卷烟原料感官风格品质特色评价方法》对2015—2017年采购的津巴布韦等6个国
可见光图像能够充分反映场景的细节信息,红外图像能够反映目标的热度信息,利用两者的互补信息进行融合,可以得到具有目标信息和场景细节的图像.本文提出一种基于卷积自编码融
采用新型材料——发泡陶瓷保温板作为保温材料用于外墙外保温系统,对保温材料和保温系统进行了相关的试验研究和工程试点,开发出一种防火性能佳、质量通病少、与建筑同寿命的
国内生猪养殖正由传统的生猪养殖模式逐步转变为自动化、集约化生产模式。规模化猪场的生产规模大、数量多,一旦暴发疫病将会有快速流行、传播的风险,会给猪场造成重大损失。
本文以Fishbein理性行为模型为基础,从消费认同视角研究了我国消费者购买意向的影响因素。通过选取群体所属感、身份紧张感和个性化三个反映消费认同作用机制的变量取代理性
随着电子政务应用的不断深入,对电子政务决策支持系统的需求也迫在眉睫。如何构建有效的数据平台,使之为政府决策提供支持是一个较为复杂的问题。本文提出以数据仓库技术为基础
从马斯洛的需要理论出发,我们认为心理需要是宗教信仰的一个深层动力和重要原因。原始宗教是人类生存的需要,道德宗教是人类安全和伦理道德的需要,宇宙宗教是人类认知与理性探索