基于条件随机场与多级索引的中文地址标注系统设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zjj008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据第二次全国残疾人抽样调查的结果,我国残疾人口总数为8296万,占全国人口的6.34%,我国残疾人口在全国各地均有分布,展现出了空间上高度的离散化。而管理这些残疾人相关的康复地址数据这一任务的艰巨性和复杂性也随着残疾人总人口数的增长和残疾人口分布离散化的加剧而呈指数型上涨,一个统一的、一致的残疾人康复服务支撑平台会给我们管理和分析残疾人康复数据带来巨大的便利。本文正是在这样的背景下展开了对残疾人康复服务支撑平台中地址标注系统的研发。  残疾人康复服务支撑平台成功地解决了康复信息的搜集、管理分析的工作上的困难,利用数据库、机器学习相关技术使得管理和挖掘残疾人康复数据成为可能。由于残疾人康复地址信息中存在数据缺失的情况,本文设计和实现了一种基于条件随机场(Conditional random fields,CRF)和多级索引的中文地址标注系统。为了克服条件随机场模型训练数据不足的问题,该系统使用了基于地址规则的分词和人工标注的方法得到了足够的训练数据,并结合了中文地址规则和条件随机场方法,对中文康复地址信息进行了建模,并用该模型成功地完成了对中文地址信息进行标注的工作。经过实验,我们证明了系统的有效性。  残疾人康复服务支撑平台中的中文地址标注系统能够对残缺的康复地址信息进行一定程度的补全,从而有效整合和管理全国各地的残疾人康复地址数据,使残疾人能够在大数据时代更好地工作和生活。
其他文献
在迅速发展的集成电路制造工艺和不断提高的应用需求的推动下,系统芯片(System-on-Chip,简称SoC)集成了越来越多的功能模块。基于开放式片上总线的SoC和基于Wintel架构的传统
近年来,随着软硬件的高速发展,将有限元思想应用于物理仿真领域逐渐成为图形学领域的研究热点。就目前的研究现状而言,高分辨率变形体的仿真由于其计算量巨大,一直以来都是物理仿
学位
信息技术的发展产生了海量数据。能利用人类视觉感知以辅助知识学习的可视化技术在此背景下应运而生,但目前针对人物信息的可视化技术研究仍然较少。  CADAL中国文学编年史
近年来,随着IPTV、移动电视、在线视频等业务的增长以及互联网、通信网络、广电网络三网相互融合的趋势,视频类业务已成为当前不可忽视的主流业务,而视频类业务的质量也成为各方
随着Intemet迅猛发展、企业需要管理的数据量日益增大,发展内部信息系统、完成企业管理信息化成为企业IT建设的重要议题。由此衍生出了,如何构建合理的可扩展的系统架构模式
近几年来,手机用户数量激增带来了大量移动业务的潜在用户,加剧了各电信运营商之间、各业务提供厂商之间的竞争。以业务为驱动的第三代网络的正式商用,进一步推动了移动业务的发
随着互联网上Web服务的大量出现,Web服务的应用也越来越广泛。如何从大量的Web服务中快速选取用户所需要的服务,成为了一个亟待解决的问题。当前的Web服务发现方法主要有基于关
微小卫星运行在恶劣的外太空环境中,承载着重要的任务,其运行特点及其在军事上的重要意义使其比一般系统具有更高的安全要求。星载嵌入式实时操作系统作为微小卫星系统的软件支
随着信息化建设的不断加强和计算机技术的深入发展,煤炭企业的信息化发展取得了长足的进步,基于各种开发平台所构建的软件系统在煤炭企业中得到应用,这些系统在功能、逻辑上