汉语组块识别的研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:taobaowang1312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会和信息网络的发展,自然语言处理变得越来越重要。完全句法分析是自然语言处理的一个重点和难点,于是人们提出一种浅层句法分析来降低完全句法分析的难度。组块识别作为自然语言浅层句法分析的主要方面之一,它是以组块为单位来进行语法分析,从而为更深层次的句法分析以及组块对齐等自然语言处理任务提供基础。本文采用基于CRFs的分布式方法与错误驱动技术相结合,来实现对汉语组块的识别。首先,采用“分而治之”的方法将各组块进行分组,为各分组分别选取合适的单一特征和组合特征,用CRFs进行组块识别;然后将识别结果加入到特征模板中,进行CRFs的第二次识别。在合并结果,处理类型冲突时,综合考虑各组组块识别的F值及数量两种因素确定其合并的优先级,从而进一步提高了组块的整体识别结果,尤其是名词组块的识别效果。最后,以识别出的名词组块为基础,提出了一种基于已对齐词的窗口匹配算法,实现了名词短语的对齐。将由GAZA++词对齐得到的短语翻译作为中文短语的初始翻译,利用双语短语词典和双语词语词典,修正或重新查找中文名词短语的最佳翻译。实验结果表明,基于CRFs的分布式方法与单独的CRFs相比,不仅缩短了训练时间,而且提高了识别结果;加入错误驱动技术后,识别结果有了进一步的提高;各组组块识别的F值及数量两种因素综合考虑而定的优先级,其组块识别结果优于单独考虑F值而定的优先级。最终系统开放测试的F值达到93.23%。名词短语对齐也取得了较好的成绩,准确率达到了88.01%。
其他文献
山东肥城矿务局白庄煤矿近年来以改革统揽全盘,并注重由过去单一零星的改革向综合配套发展,由一般性的治表向治本机制的转变发展,取得了较为明显的成效。特别是按照“三线分离,减
软件应用框架不是一个可用的应用系统,它是一个半成品,由一些相互协作的类和相关接口组成,应用开发人员可在其基础上进行二次开发,以实现特定功能的应用系统。而轻量级并不是指框
访问控制是实现信息系统安全的一项重要机制,然而传统的访问控制技术—自主型访问控制和强制型访问控制已不能满足当今系统安全的需求。基于角色的访问控制模型有效克服了传统
车牌定位的好坏直接关系到车牌识别系统识别率的高低,并且对识别速度也有很大的影响。提高车牌识别系统的效率和实时性的关键在于能否实现车牌的快速准确定位。另一方面,半导
定性空间推理结合了定性推理、空间推理与人工智能,它已经成为人工智能领域的一个研究热点。定性空间推理研究人类对几何空间中的空间对象及其关系定性认知常识的表示与处理
如今,计算机动画技术迅速发展,不仅在传统的动画领域以及游戏产业得到应用,越来越多的影视作品也依赖于计算机动画实现普通拍摄方法难以达到的效果。这也反过来进一步加速了
使用控制模型(UCON)作为下一代的访问控制在近年来被提出,它不仅包含了传统的访问控制技术,同时还涉及到了信任管理问题和数字版权管理问题的领域,也是近年来计算机信息安全领域的
构建和谐社会,关键在“党”、关键在各级领导班子。近年来,中共抚松县委组织部以“厉行务实之风,奋创先锋之绩”的理念,着力加强班子建设和基层组织建设,营造风清气正的政治
多年来,河北省煤炭学会在挂靠单位的大力支持下,在中国煤炭学会的指导下,坚持正确的办会方向,努力加强自身建设,充分发挥学会优势,紧密围绕煤炭行业的中心工作和煤炭生产建设中的重
目的 评价蒲元和胃胶囊治疗胃疡病(肝胃不和证)的疗效.方法 将120例患者按随机法分为2组,给予蒲元和胃胶囊治疗的为治疗组(60例),给予西药(泮托拉唑)治疗的为对照组(60例),疗