面向互联网的中文地址语义解析方法研究

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户:haozhiyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,网页中所涉及的地理信息也越来越多,成为地理信息获取和更新的重要途径。网页中的地址信息是以文本化的形式存在,由于中文之间没有分隔符,大大妨碍了计算机直接理解此地址信息所描述的地理位置语义,使得这些地址信息无法转换为空间坐标映射到地图上,为人们提供精确的定位。因此,为了使计算机能够理解中文地址的位置语义信息,建立非空间信息到空间信息的映射,研究从互联网上获取的中文地址的语义解析方法具有重要的应用价值。本文以从互联网上通过网络爬虫获取的中文地址作为研究对象。针对文本化的中文地址的语义解析,本文采用基于统计的中文地址分词方法,该方法不依赖于地名词典,主要是先通过统计从互联网上爬取得的25万条地址数据构成的语料库的词频,计算相邻词语之间的互信息,词语的信息熵,然后对地名地址串进行全切分处理,得到所有分词方案,通过计算选择弧段开销最小的分词方案,最后通过置信度计算得到分词结果。在该基础上,本文采用了基于贝叶斯模型的中文地址要素语义标注方法对切分出来的中文地址进行语义标注,该方法通过构建中文地址要素的标注体系表,统计地址标注语料中每种地址表达模式的概率,并以标注状态作为节点构建一个地址表达模式树,记录经过每个节点的次数,然后计算出每个地址要素在某一个地址标注状态的费用和前一个地址要素最有可能的地址标注状态,通过回溯得到中文地址的语义标注序列。本文的中文地址语义解析方法采用来自于互联网的不同数量的中文地址数据进行实验,对不同数量的地址语料库的实验结果进行了深入的分析,并与其他方法进行对比分析。实验结果分析表明,在没有地名词典的条件下,本文方法对于中文地址的分词具有较好的效果,且能够对切分出的地址要素进行语义标注,使得文本化的中文地址能够直接被计算机应用于地理位置信息服务。
其他文献
为了建立沥青混合料的三维数值模型,采用德国Compact-225型X-ray工业CT对AC-16级配的沥青混合料标准马歇尔试件进行断层扫描,将扫描图导入医学软件Mimics,通过双峰法进行阈值
对汽车进行维护和修理,是人们非常关心的一个问题。假如在开车时不及时对车进行保养,或者开车的时候有很不好的习惯,就会使得汽车返回到厂里进行修理,这需要花费非常高的费用
本文探讨了数据中心建设中规划设计阶段所涉及的整体规划、绿色节能、安全冗余、工程模式四个方面的最佳实践,为数据中心规划设计的实践准则和方法措施提供参考。并倡导总结
本文主要针对楼宇自控系统技术发展的现状,从网络结构、软件结构、硬件结构、集成方案、数据结构等方面进行分析,介绍了当前常用的拓扑结构,希望提供一种楼宇自控系统架构设
重评胡适《中国哲学史大纲》的历史地位欧阳哲生胡适在哲学理论上主要是传播实验主义,因而一般论者认为他缺乏原创性的建树;但胡适的中国哲学史研究则让人刮目相看,诚如一些论者
本文详细介绍特殊钢无损棒材精整线控制系统,针对棒材经过抛丸、精矫、倒棱和联合探伤处理的工艺线,并结合无损探伤检测的原理和特点,架构精整全线控制模式,实现逻辑控制,优
<正>仿写就是采取仿照例文的样子来写作文。仿写不但可以使学生学会如何写作,而且可以扩展学生的知识面,提高习作的兴趣。因此,引导孩子进行"仿写"练习是一种非常有效的教学
期刊
为了对PTT和PET纤维进行准确、高效的定性鉴别,用热重法(TGA)、微分热重法(DTG)、差示扫描量热法(DSC)三种热分析方法对预处理后的PTT和PET纤维进行测试与比较。对PTT和PET纤
期刊
"共享经济"基于协同共享的理念,以互联网平台为依托,已然成为当今"创新经济"的潮流。从经济伦理的角度来看,"共享经济"所促成的是一种适度消费、合作互惠、相互信任的经济伦