论文部分内容阅读
根据第二次全国残疾人抽样调查的结果,我国残疾人口总数为8296万,占全国人口的6.34%,我国残疾人口在全国各地均有分布,展现出了空间上高度的离散化。而管理这些残疾人相关的康复地址数据这一任务的艰巨性和复杂性也随着残疾人总人口数的增长和残疾人口分布离散化的加剧而呈指数型上涨,一个统一的、一致的残疾人康复服务支撑平台会给我们管理和分析残疾人康复数据带来巨大的便利。本文正是在这样的背景下展开了对残疾人康复服务支撑平台中地址标注系统的研发。 残疾人康复服务支撑平台成功地解决了康复信息的搜集、管理分析的工作上的困难,利用数据库、机器学习相关技术使得管理和挖掘残疾人康复数据成为可能。由于残疾人康复地址信息中存在数据缺失的情况,本文设计和实现了一种基于条件随机场(Conditional random fields,CRF)和多级索引的中文地址标注系统。为了克服条件随机场模型训练数据不足的问题,该系统使用了基于地址规则的分词和人工标注的方法得到了足够的训练数据,并结合了中文地址规则和条件随机场方法,对中文康复地址信息进行了建模,并用该模型成功地完成了对中文地址信息进行标注的工作。经过实验,我们证明了系统的有效性。 残疾人康复服务支撑平台中的中文地址标注系统能够对残缺的康复地址信息进行一定程度的补全,从而有效整合和管理全国各地的残疾人康复地址数据,使残疾人能够在大数据时代更好地工作和生活。