基于SNM算法的大数据量中文地址清洗方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:lsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文地址由行政区划地址和详细地址两部分组成,行政区划地址的处理可通过构建地址词典、分词、补充特征字等方式清洗,目前技术较为成熟。详细地址则随我国城镇化的发展而不断变化,且新的地址层出不穷,导致其清洗和规范化工作极其困难。在研究大数据量中文地址的基础上,提出了中文地址清洗模型,在行政区划地址先清洗并规范的前提下,对地址进行排序,利用SNM算法将详细地址聚集在一个较小的窗口内,对窗口内的地址进行匹配和清洗,实验结果证明清洗效果良好。
其他文献
一直以来语法教学都是外语教学中非常重要的组成部分。传统的语法教学花费了教师和学生大量的精力,但是效果并不显著。以往的语法教学研究往往是从教师角度出发,研究重心放在
汉代是一个舞蹈活动极其广泛的时代,不仅宫廷宴享有舞蹈表演,豪门富家都养有女乐,就连在民间的祭祀和丧葬仪式中,也普遍有歌舞活动。汉代乐舞艺术的大发展,为后代留下了丰厚
从篮球技战术发展的内、外因视角出发,运用文献资料法、专家访谈法、历史比较法和理论分析法深入研究篮球防守理念的发展历程以及新时期里的发展趋势。结论:1)攻防对立统一律
个人信息是连接个人与社会的纽带,它的收集利用和产生一样古老。随着信息网络技术的发展,个人信息逐步成为一种新兴的资源。一方面,个人信息作为人与人之间交流的媒介给社会
由于互联网金融业务具有一定的不可控性和不确定性,因此,互联网具有一定的金融风险,而且会有一定的损失。由于这些原因,导致了互联网金融风险更为复杂化。本文将对当前互联网
在过去几十年中,我国体育采用"赶超型"的发展方式,从而在资源不足,基础薄弱的状况中迅速崛起。随着改革开放的深入发展,这种体育发展方式的局限性逐渐显现。应将其转换为新的
目的 分析新生儿B族链球菌(GBS)感染性化脓性脑膜炎的临床特征及预后。方法 选取2010—2016年深圳市妇幼保健院收治的新生儿GBS感染性化脓性脑膜炎患儿28例作为观察组,新生儿
插图在明代小说中十分普遍,可以说是无书不图,尽管其存在形式不同于文本,但它同样是小说作品的有机组成部分。插图虽然是依据文本而来,但它本身也呈现出对文本的独特理解,两
本文以迟子建少数民族书写的文体特征为研究对象,结合叙事学、修辞学、美学理论,首先从文体形成原因和文本内容主题两方面来分析迟子建的少数民族文学观,然后从文本时空结构
近年来,随着媒体政策的进一步开放,我国的电视事业不断繁荣发展,电视新闻节目的播报方式更为多样,风格更为轻松活泼、亲切自然,甚至新闻节目有了"娱乐化"倾向。新闻节目"娱乐化"