地图标注内容的文本异常识别

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:corber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着地图标注服务的深入应用,开放性标注行为引起的标注安全性与适宜性问题逐步被放大。而如今,基于地图标注的敏感信息发现与适宜性评价依旧未能引起学术界的注意。本文从标注文本的内容属性与空间特征出发,旨在标注内容中识别出异常信息,在空间上对标注投放的适宜性进行评价,从而实现绿色标注行为,最终保障地图的安全性。本文主要从中文分词、敏感词库、多模式匹配三方面进行了研究,主要工作如下:(1)双哈希词典分词机制研究。中文分词的效率直接影响到地图标注适宜性的评价,本文首先分析最大正向匹配与最大逆向匹配为主导的分词技术,详细介绍了多种分词词典机制。根据汉语词库词长与英文的差异性,采用双字Hashing词典机制对中文进行分词。通过实验,本文验证了该分词方法简单快速,能够良好的适用于中文分词。(2)敏感词库构建。敏感词词库被广泛应用于各个论坛和网络信息发布的拦截,目的是规范与绿化网络应用环境。据此,本文首先分析敏感词的特征,并且在论坛敏感词的基础上,考虑标注的空间属性,对地图标注的敏感词进行了分类,最终构建了基于地理标注的敏感词库,为敏感信息的识别奠定了基础。(3)多模式匹配算法。模式匹配算法是敏感词发现的一个关键环节,针对地图标注敏感词特点,本文对常用的单模式与多模式匹配算法分别进行了对比与分析,提出采用AC-BM算法进行标注敏感词的检测。鉴于标注中异常词中英文混合的存在,本文统一将其转换到Unicode码平台上进行树构建与匹配计算,改进与优化了传统的AC-BM算法,最终实现了快速的敏感词识别。本文主要工作集中在标注异常安全的描述与识别,在中文分词、敏感词词库、多模式匹配算法方面均有所发现,并实现了相应的功能。
其他文献
蒸散是地表水分循环过程中的重要环节,决定着地表水分收支状况。区域地表蒸散的变化特征反映了陆面过程中能量和水分收支状况的演变趋势,同时也进一步影响区域气候和水资源总量
随着纳米科技和分子动力学模拟技术的日益发展,纳米尺度条件下流体流动特性的研究具有巨大的实际意义。流速是流体特性的重要物理参数,在微纳米尺度流体流动过程中,速度滑移有着
丛粒藻(Botryococcus braunii),又称布朗葡萄藻,隶属于绿藻门(Chlorophyta)、共球藻纲(Trebouxiophyceae)、丛粒藻目(Trebouxiales)、丛粒藻科(Botryococcaeae)、丛粒藻属(Botryococcus),是
部分石斛属(Dendrobium)植物是重要的观赏花卉,可做盆栽和切花,极具开发利用价值,市场前景广阔。本研究以观赏石斛品种‘紫色火焰’(Dendrobium Mangosteen)和‘粉红2号’(D.
经典的Bianchi变换是指R33中具有常曲率-b2的伪球面到其“补曲面”之间的一种变换,而且“补曲面”也具有相同的常曲率。它也可以看成是R3中Backlund变换的一种特别的情形。本
脂肪酶(Triacylgycerol acylhydrolase, Lipase, EC3.1.1.3),是水解酶中的一种,普遍存在于自然界中。在现实应用中,微生物产生的脂肪酶是工业生产中使用到的所有酶中最重要的
白蚁是一类在自然界中广泛分布的社会性昆虫,在全世界已定名的白蚁有3000多种,其中低等白蚁约占15%。作为国际生态学研究的五大害虫之一,白蚁虽然对多种农林植物、木质建筑和
随着激光的出现,人们开始致力于对激光材料的研究与探索。稀土掺杂上转换发光材料在许多新的领域有着巨大的潜在应用前景,稀土掺杂铌酸锂晶体更是集非线性光学性能和稀土离子的
本文介绍了带可乘白噪音和div(σ(x)(?)u)项的半线性退化抛物方程,主要研究它的唯一解所确定的随机动力系统在L2空间中的有界域上是否存在随机吸引子的问题.本文考虑如下带可
光弹性法是实验力学中最重要的测试手段之一。随着光电元器件的迅速的发展与广泛的应用,也给光弹性法注入了新的血液。随着数字图像相关技术的成熟,光测力学作为当前一种实用