汉语组块识别的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:liur8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理中词法分析的日趋成熟,句法分析已经成为当前研究的重点和难点,组块识别的提出是为了降低完全句法分析的复杂性。通过采用“分而治之”的策略将句法分析分为组块识别和组块间关系分析,这样将词级的处理转换为组块级的处理,降低了句法分析的难度。本文的目的就是在词法分析的基础上,完成汉语句子的组块识别,为完全句法分析和其他自然语言处理任务提供基础。论文阐述了组块识别的研究现状及研究意义,给出了本文研究的组块定义及组块分类,研究并实现了基于特殊隐马尔可夫模型(Hidden markov model,HMM)、支持向量机(Support vector machine,SVM)以及条件随机域(Conditional random fields,CRF)的组块识别系统,应用特征扩展和voting组合法改善组块识别结果。文中给出了特殊HMM、SVM、CRF三种统计学习模型的识别效果。通过错误数据分析,发现特殊符号、并列关系以及较粗的词性会导致识别错误,并针对这些问题提出了一个特征扩展方法。在此基础上,给出了一种基于标点符号分割段的voting法结合三种统计模型,进一步改善了组块的识别效果。实验表明,三种基本组块识别模型都取得了较好的结果,其中特殊HMM组块识别结果的F值为86.01%,SVM组块识别结果的F值为90.89%,CRF组块识别结果的F值为91.08%,从实验上验证了三种模型的有效性。在引入特征扩展特征和voting组合法后,组块识别结果的F值提高到91.39%。本文的研究成果可应用于实际翻译系统中,达到简化句子结构、提高机器翻译系统整体性能的目的。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。
其他文献
学位
信息系统数据的重要性正在与日俱增,成为企业资产中举足轻重的组成部分。如何保证数据为企业信息系统提供安全、稳定的服务己成为企业用户的关注点。基于网络的信息系统的流
随着信息化进程的深入,通信技术与计算机及其网络技术相融合,产生了一个新的研究领域一计算机支持的协同工作CSCW(Computer Supported Cooperative Work),简称计算机协同工作,计
随着各种类型多媒体数据的大量涌现,迫切需要一个统一的多媒体数据管理平台来存储和管理这些多媒体数据。因而,多媒体数据库已经成为目前国内外数据库研究的热点和难点。查询
随着全球经济一体化的发展,人们对国际化信息的渴求越来越强烈。为了解决不同语言之间的交流障碍,语音翻译应运而生。通常语音翻译由语音识别、机器翻译、语音生成三分部组成,其
粒子群优化算法(Particle Swarm Optimization,PSO算法)源于鸟群和鱼群群体运动行为的研究,是一种基于种群搜索策略的自适应随机优化算法。作为群智能的典型代表,粒子群优化
人类社会不断发展,当今社会已步入信息时代。进入90年代以来,随着移动通信技术的迅速发展和投入使用,许多计算结点已在自由移动的过程中保持网络连接,于是,“移动计算”和“
随着软件系统的日益庞大,对软件的质量要求也越来越高,性能测试作为保证软件质量的重要手段,受到人们前所未有的关注,同时,基于UML的软件设计方法也日益成为一个行业标准。因
目前,政府各个部门的业务系统各自为政,相互之间缺少信息资源共享和业务协同,造成了所谓的“信息孤岛”;另外,业务系统间存在安全边界,造成用户在访问不同应用系统时需要多次
Turbo码作为一种性能优异的信道编码方案,从提出到现在已经有20多年历史了。人们对它的理论研究已经深入到方方面面;在各个领域的通信系统里Turbo码得到了广泛的应用,取得了