中文分词算法的研究与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:jerryweimao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在本文中,对自然语言处理的基础性问题中文分词进行了研究。在常见的基于词典的分词算法和基于统计的分词算法的基础之上,提出了一种基于词典与基于统计相结合的分词方法,充分利用了基于词典分词的高效性及基于统计的分词的较强的歧义处理的能力。首先使用改进的双向匹配方法对待切分句子是否包含歧义进行判断,如果判断没有歧义,将分词结果直接作为输入传递给中文人名识别模块;如果判断包含歧义,该句子需要基于统计的方法进行切分,首先,使用正向全切分算法对待切分句子进行处理,得到所有的可能的切分情况,然后,根据训练得到的bin-gram语言模型对各种切分情况进行可能性的计算,选出概率最大的三种结果加入到备选集,下一步使用基于隐马尔可夫(HMM)的评价算法对备选集中的三种切分进行出现的可能性评估,选取概率最大的一种作为切分后的结果,最后将该结果作为中文人名识别模块的输入,进行中文人名的识别操作,对于中文人名的识别,本文采取了一种规则与统计相结合的识别算法,人名识别模块的输出便是最终的处理结果。在实际中,只有少部分的中文句子包含歧义,这就意味这大部分的句子使用双向匹配算法就可以得到解决,少部分的句子使用基于统计的分词方法进行歧义的消除,这样就最大程度地兼顾了效率与准确性。实验结果表现出了较好的分词效果。本文的创新之处在于:使用了词典与统计相结合的分词方法;对基于词典的分词方法进行了改进,并对传统的整词二分法词典及双字哈希词典均进行了优化,引入了词长数组,对于词典正文部分按照长度分开存储,并进行排序,提高了词典的匹配效率并减少了空间占用,引入了结尾词长数组从而使逆向匹配算法可以和正向匹配算法使用同一个词典,实现了词典的复用;使用了一种三层的存储结构存储bin-gram语言模型,提高了运算速度;采用了规则与统计相结合的中文人名识别方法,表现出了较好的人名识别率。最终实现了一个中文分词的系统,提供了便捷的操作界面,系统集成了各种词典结构及分词方法,并支持词典的添加删除等维护操作,方便操作及对比研究。
其他文献
餐饮企业在激励员工的过程中,需要建立一套完整激励方法。员工与企业之间建立联系,餐饮企业员工在认同和支持企业价值观的基础上形成和确立的共同价值观。企业文化是企业的灵
采用盆栽实验研究了在汞镉铅三级水平复合污染的菜地上施用不同量Ca(OH)2(石灰)对菜心生长、生理及品质的影响,同时探讨了汞镉铅在菜心中的富集量及土壤中有效态汞镉铅含量。
分析讨论了光降解塑料的概念、光降解机理、影响光降解的因素、典型光降解塑料品种的制备方法和性能 ,认为光降解塑料作为一种新型环境材料 ,可有效地解决地球环境“白色污染
随着时代的发展、社会的进步,我国制造业也进行了改革,特别是内部控制制度的构建与实施。有效的内部控制系统能够促使企业提高经营效率,保证其财产安全,为企业的长远发展奠定
本文根据QPSK的正交相移键控方式的调制原理,利用此种调制方式效率高、速率快和抗干扰能力强的优势,在MATLAB的平台上编写了相应具体的调制仿真程序,对随机抽取的基带信号进
少先队组织是小学生活动组织中的重要组成部分,为引导小学生积极健康成长起到了重要的作用。为了加强学生的素质教育,我国推行了新课程改革,全面加强学生思想品德教育,通过形
<正>湖南省十二届人大常委会第三十次会议近日表决通过了《湖南省城市综合管理条例》,并将于8月1日起施行。该条例是全国首部省级层面综合规范城市管理和执法工作的地方性法
象似性是认知语言学的中心内容之一,它是指语言符号的能指与所指之间的自然联系,其研究对了解语言和认知之间的关系有重要意义。数量象似性原则是其重要原则之一。本文主要探讨
物联网软件体系结构用于定义物联网应用系统的构件模型和交互拓扑,是构建支持水平互联、异构集成、资源共享和动态维护的物联网应用系统的基础.面向服务的软件体系结构(Servi
泾河流域水文特性分析韦中兴,蔺生睿(黄委天水水文水资源勘测大队)径河为黄河十大水系之一,是西北黄土高原地区的一条重要河流,其降水、径流、泥沙等水文特性在西北地区河流中具有