基于N-gram的双向匹配中文分词方法 - 论文文献免费下载 - 搜论网

基于N-gram的双向匹配中文分词方法

来源 :数理统计与管理 | 被引量 : 0次 | 上传用户：huangshuhui1983

【摘要】

：

针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法.充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法

【作者】

：

凤丽洲杨贵军徐雪徐玉慧

【机构】

：

天津财经大学统计学院,天津300222;天津商业大学理学院,天津300134;中国联合网络通信有限公司青岛分公司,山东青岛266000

【出处】

：

数理统计与管理

【发表日期】

：

2020年4期

【关键词】

：

N-gram模型分词歧义评测指标双向匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法.充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择.此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标Pn,有效规避了词条长度对分词准确率评价的影响.最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、Pn和F1值.

其他文献

关于主从式分层并行遗传算法的研究

该文基于并行进化种族间的协作和竞争机制，提出了一个主从式分层遗传算法模型，为求解复杂问题，新算法首先将其分解为多个简单的子问题，再将各子问题对应的子群体进行分组处理，模型

会议

主从式遗传算法子问题算法模型群体求解竞争机制分组处理处理单元超大规模层次结构并行进化种族证明协作实验理论分层

一个充分使用内存的并行文件系统

该文介绍了基于工作站网络环境的并行文件系统Ｐａｒｆｓｎｏｗ〈’＋＋〉。该系统充分抻用内存进行文件数据的共享和存储。该文介绍了Ｐａｒｆｓｎｏｗ的框架构成，并在此基础上介绍了Ｐａｒｆｓｎｏｗ〈’＋＋〉的运行，即其文件操作，最后

会议

内存并行ｓｎｏ文件系统性能评价文件操作网络环境工作站运行数据框架基础构成共享存储

基于并行属性划分存储结构的并行聚集算法

会议

并行属性划分存储结构

武夷山自然保护区肺吸虫病的初步调查

会议

武夷山自然保护区肺吸虫病

用并行遗传算法率定概念性降雨-径流模型

并行遗传算法(Parallel Genetic Algorithm，PGA)可以进行大规模复杂系统的参数优化。并行遗传算法扩大了种群规模，提高了种群的多样性，从而改善了遗传算法的性能，使其收敛性和收

会议

并行遗传算法降雨径流模型参数优化水文模拟复杂系统

林氏并殖吸虫（ＰａｒａｇｏｎｉｍｕｓｒｉｎｇｅｒｉＣｏｂｂｌｄ，１８８０）的独立性

会议

并殖吸虫

基于混合威布尔分布的风能资源分布统计分析研究

风速概率分布特性和风能概率密度特性研究是风电场风能资源评估的重点.本文使用混合威布尔模型进行风速和风能概率密度估计,从而研究风能资源分布特性.在本文中,混合分布的个

期刊

风速分布风能分布混合威布尔分布

测量误差对ELR控制图检测性能的影响分析

在多数控制图的应用中,系统的测量误差会影响控制图的检测效率.本文主要研究在带有线性协变量误差模型下,考虑测量误差对Zhang等(2010)[1]提出的用于同时检测过程均值方差的

期刊

测量误差平均运行长度统计过程控制

HPC++并行语言的若干技术研究

通过对基于ＨＰＣ＋＋Ｌｉｂ的并行Ｃ＋＋语言ＨＰＣ＋＋（ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣ＋＋）的研究，指出了目前基于Ｃ＋＋的并行语言的不足，并详细说明了为克服上述不足ＨＰＣ＋＋引入的新概念和新方法，最后指出了ＨＰＣ＋＋尚待解决的若干问题。

会议

并行语言ＰＣ若干问题新方法概念

家犬肺吸虫病的成虫经吡喹酮治疗后的光镜电镜及组织化学观察

会议

家犬肺吸虫病成虫吡喹酮治疗光镜电镜

与本文相关的学术论文