基于AC自动机和地址概率模型的地址标准化算法研究

来源 :武汉邮电科学研究院 | 被引量 : 1次 | 上传用户:jiahenglipin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地址是一个连接广大的人、物、事的关键桥梁,在商业竞争、舆情管理、智慧城市建设过程中发挥了不可或缺的作用。地址标准化能够将非结构化和非空间化的地址转化为标准结构的中文地址结构,使计算机能够理解并处理字符串的地址信息。传统的中文地址标准化主要从字典、统计、语义三个方面进行。本文依据大量的实例地址率先提出了一个12级的可配置地址层次模型,在该地址模型的基础上提出了一种结合字典和概率统计的地址标准化算法。本文算法建立在一个五级轻量地址基础库上。首先利用AC自动机算法快速的标注出中文地址中的行政地址、地址关键词和辅助词,得出一个中文地址元素集合并建立地址向量模型(AVSM)。建立模型后,将AVSM中地址元素包含的前五级行政区划地址要素进行条件组合,得出可能的行政区划候选值集合。然后利用余弦相似度和地址树来确定最佳的前五级行政区划地址元素。随后,依据关键词和概率地址模型确定后续非行政区划地址元素。最后,通过有限状态自动机将得到的单条标准化后的地址进行地址等级规则校验,对所有通过校验后的地址利用补全字典进行缺失地址等级元素的补全。本文算法有效的融合了基于字典匹配切分速度快的特点和概率统计能有效的解决地址歧义的优势。本文算法具有较高的切词速度和准确度,在保持较高的切词速度下,能够对地址数据进行位置调整,去重,补全,并且剔除垃圾数据。行政基础库和补全字典能够最大限度地提升地址的补全效果,而关键词和概率模型可以有效地识别出为登录词。本文算法兼顾分词性能和可维护性。
其他文献
医院文化是在继承本民族文化传统的基础上,借鉴现代企业文化意识的影响力而形成和发展起来的,是一种具有独立行为特征和内涵,与社会文化同步发展的群体文化,它的实质是以人文
应用特异PCR技术检测了猪糖皮质激素受体(GR)基因内含子7长度多态性,并分析其与脂肪性状的相关性。结果表明:凉伞猪、龙潭猪群体中,GR基因内含子7长度多态性发现有A和B2个等位基
为研究玉米生育后期补灌和追氮对氮代谢及产量的耦合效应,采用大田试验,测定了拔节后灌水对不同追氮水平下硝酸还原酶(NR)、谷氨酰胺合成酶(GS)等氮代谢酶活性、产量及产量构成因
临床诊断是整个医疗服务的首要环节,没有正确的诊断就没有有效的治疗.实践中很多医疗纠纷就发生在诊断过程中.文章通过探讨和分析临床诊断过程中发生医疗纠纷的原因及其防范
评价不是学习过程的终结,而是为了服务于学习,教师可以利用评价发现教学设计中的缺陷,改进教学方法。学生应形成自评、互评的良好习惯,发展自主学习能力。文章从三个不同的方
关于唐代后期的经济研究,以往学者多侧重于某一专题的讨论和研究,如虚实估、两税法、刘晏税改、税收制度、运河经济、盐税等,或就某一时期的财政状况进行评论,而整体上、全面
赋税是中国古代国家宏观管理经济的重要手段,是统治者为维护国家机器运转而强制征收的。赋税制度在不同的时期因人事的变化而经历不同的变化。本文将阐述中国历史上两次重要
通过不同氮水平稻田杂草野慈菇(Sagittatia trifolia)的取样测定,研究了野慈菇在开花前期、盛花期和结实期各构件的营养元素(N)生殖分配特点。结果表明:从开花前期到结实期,野慈菇
根据涡轮氧泵内流路的工作特点,对其进行节点划分,建立了完整的内流路拓扑网络.在此基础上,建立主泵、节点特性、流阻元件变形、轴向力和轴向位移等模型,对影响其工作可靠性