【摘 要】
:
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法.充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法
【机 构】
:
天津财经大学统计学院,天津300222;天津商业大学理学院,天津300134;中国联合网络通信有限公司青岛分公司,山东青岛266000
论文部分内容阅读
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法.充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择.此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标Pn,有效规避了词条长度对分词准确率评价的影响.最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、Pn和F1值.
其他文献
该文基于并行进化种族间的协作和竞争机制,提出了一个主从式分层遗传算法模型,为求解复杂问题,新算法首先将其分解为多个简单的子问题,再将各子问题对应的子群体进行分组处理,模型
该文介绍了基于工作站网络环境的并行文件系统Parfsnow〈’++〉。该系统充分抻用内存进行文件数据的共享和存储。该文介绍了Parfsnow的框架构成,并在此基础上介绍了Parfsnow〈’++〉的运行,即其文件操作,最后
并行遗传算法(Parallel Genetic Algorithm,PGA)可以进行大规模复杂系统的参数 优化。并行遗传算法扩大了种群规模,提高了种群的多样性,从而改善了遗传算法的性能,使其收敛性和收
风速概率分布特性和风能概率密度特性研究是风电场风能资源评估的重点.本文使用混合威布尔模型进行风速和风能概率密度估计,从而研究风能资源分布特性.在本文中,混合分布的个
在多数控制图的应用中,系统的测量误差会影响控制图的检测效率.本文主要研究在带有线性协变量误差模型下,考虑测量误差对Zhang等(2010)[1]提出的用于同时检测过程均值方差的
通过对基于HPC++Lib的并行C++语言HPC++(High PerformanceC++)的研究,指出了目前基于C++的并行语言的不足,并详细说明了为克服上述不足HPC++引入的新概念和新方法,最后指出了HPC++尚待解决的若干问题。