中文地址匹配系统的设计与优化

来源 :武汉邮电科学研究院 | 被引量 : 2次 | 上传用户:Happyboy123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文地址匹配研究的目的是把非标准、非规范化的地址通过中文地址匹配技术进行聚合,从而以中文地址为纽带关联其余信息,为大数据分析提供一条重要的途径。地址是描述空间坐标的自然语言字符串,也是标识人类居住、工作、生活等的空间坐标,与人的关系极为密切。地址在物流、电信注册、户籍、税务、房产、工商等领域有着大量的记录,通过对这些数据的分析可以对国家经济和社会安全有着积极的影响。现阶段,中文地址的利用仍处于较为初级的阶段。由于中文地址仅是一种描述性数据,不是结构化数据,存在形式多样、机器难以理解等问题,不能直接用于聚合、匹配,不利于对数据的分析。中文地址匹配的研究可以解决中文地址的标准化、精确匹配等问题,为实现了不同场景下含有地址数据的互通提供有效的支撑。虽然国外对地址匹配有非常成熟的研究,但基于中文的复杂性,以及我国在地址统筹规划、标准制定中进展稍晚,现有技术中对中文地址匹配存在许多问题。基于以上几点,本文将确定以中文地址匹配为研究课题,研究中文地址的标准化、匹配等问题。本文将从统计和规则相结合的角度出发,对中文地址匹配做了以下研究:1.中文地址标准化研究。中文地址由中文字符、英文字符、数字字符、特殊字符等构成,本文首先分析了中文地址的复杂性与标准化的难度,然后分析了标准中文地址需要的地址要素构成,并对如何获得标准化的中文地址进行了研究,提出了先对中文地址进行分词、再对词进行地址要素识别的方法。2.中文地址高效匹配算法研究。在中文地址标准化后的基础上,本文研究了中文地址高效的匹配方法。3.中文地址匹配系统设计。针对中文地址匹配的需求,本文设计并实现了一个切实可行的中文地址匹配系统。本文的创新点为:1.提出了基于LSTM网络的中文地址的分词算法。2.在分词基础上提出了基于规则和理解的地址解析算法。
其他文献
温庭筠的咏史诗可分为3部分,即抨击揭露,以古喻今,探求历史兴亡规律的作品;反对割据,颂扬统一,张扬民族大义的作品;歌咏英烈,抒发情怀,真实表现自己希望与理想的作品.温庭筠
英语作为初中学习中唯一以非母语为媒介的科目,是许多初中学生面临的一大难题。许多农村初中生智力处于相似水平而其英语学习成绩却呈现出分层式的差别,这种两极分化的现象与
近几年,国家开始实施"互联网+"的行动发展计划,这为我国行业发展提供了重要的发展机遇。电子商务、互联网金融等行业都呈现出新的发展态势。"互联网+"时代的到来是信息技术高
目的构建护理学专业疼痛课程的核心知识体系。方法选择18名临床疼痛管理、疼痛护理和疼痛护理教育专家,运用德尔菲法,构建护理学专业疼痛课程的核心知识体系。结果咨询专家的
我国高度重视环境问题,并积极进行植树造林活动。近几年,我国的森林覆盖面积持续扩大,生态环境明显好转。但是在植树造林过程中,由于缺少科学合理的规划,以致营造了大面积的
<正>【设计理念】新课标"学生是学习和发展的主体,阅读教学应提倡自主合作探究的学习方式。"指出阅读是学生的个性化活动,因此本课教学引导学生通过对关键词、句的朗读的自我
以山羊粪污颗粒、蔬菜渣和稻草为原料,在自行设计的生化反应器中,进行了强制通风静态好氧堆肥试验研究。大约在27 d左右堆肥的堆体物料即可完全腐熟,堆料状态稳定,羊粪颗粒松
针对当前中小学校长培训课程教学中忽视学员主体、教法单一、缺乏针对性等问题,课题组在培训的教学实践中,摸索凝练出"学情分析·专题互动·影视辅助"教学新模式。该教学模式
目的探讨气囊法、手指分离法及IUPU法建腔应用于泌尿外科常规后腹腔镜手术中的效果。方法选择2008年1月至2015年1月湖北省第三人民医院收治的接受腹腔镜手术的患者600例,依据
<正>红军长征的胜利,意义是多方面的,而且随着时间的推移,越来越充分地显示出来。首先,它宣告了国民党围追堵截红军的破产,宣传了中国共产党和红军的主张,并在沿途播下了革命