融合语义和句型信息的中文句法分析方法研究与实现

来源 :北京大学 | 被引量 : 3次 | 上传用户:xianzhiwangsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理领域一项重要的基础性研究工作。它能够发现自然语言中内在的语法结构,是进行高层信息处理和自然语言理解的基石。其中,基于上下文无关文法(PCFG)的句法分析方法一直是该领域研究的主流。本文在PCFG模型的基础上,提出了一种引入中文语义和句型信息的方法,解决了PCFG模型缺少语义信息及文法之缺少全局约束的问题,改进了中文句法分析器的性能。首先,在句法分析中融入语义信息。尝试在非词汇化句法分析方法中融入语义信息,利用语义信息帮助句法分析进行消歧。加入语义信息后,句法分析器的性能在宾大中文树库(CTB)标划分准集上F值提高了1.37%达到了81.63%1。该方法除了能解决中文里常见的一些歧义外,还能从句法分析的结果中获得带有句法约束的语义信息。其次,在句法分析中融入句型信息。根据句法树和文法之间共现的关系,对句型信息进行建模。利用这种句型信息对句法分析的结果进行约束,纠正了基线系统在清华树库上一些句型标记的错误,F值提高了0.17%达到了86.57%1。
其他文献
“多元卫星海量数据处理与存储系统”是中国科学院对地观测与数字地球科学中心(科学中心)正在开展的一个重要项目,其目的是实现数据处理与存储技术的再一次升级,完成数据处理系
语料库是指为语言研究收集的、用电子形式保存的语言材料,语料库是语言学研究和自然语言处理等相关领域研究的重要工具。HNC理论作为一个中文信息处理的流派,它的发展要求HNC语
学位
神经递质释放到突触间隙是由SNARE(Soluble N-ethylmaleimide-sensitivefactor attachment proteinreceptor proteins)复合体的形成介导的。该复合体由两个位于细胞质膜上的
随着通信技术和网络技术的发展,传统电信网、互联网、有线电视网等各类异构网络的融合已经成为发展趋势,同时人们对网络业务的需求也呈现出多样化、综合化和个性化。在此背景下
学位
本文基于项目“HJ-1A超光谱有效载荷数据实时光谱复原处理模块“的后续研究,通过自主开发基于PCI的高速DSP数据板卡,来完成对图像数据的快速实时处理,建立与算法相匹配的地面
随着当今通信、计算机、消费电子技术的飞速发展,人们对家庭设备网络化的需求越来越高,家庭网关作为家庭网络的核心已经逐步成为了业界研究的热点。同时,ITU-T已经将家庭网络
丙酮酸(pyruvicacid)是一种重要的医药、化工产品,其生产一直是生物化工领域的研究热点。酶催化法生产丙酮酸具有生产成本低、造成的污染少等优点,成为关注的焦点。乳酸是生产
呼吸道病毒是一组能够通过呼吸道引起呼吸系统或及其他系统疾病的病毒病原。呼吸道病毒的传播方式决定了容易引发大流行如流感病毒和SARS病毒感染,对这类病毒的快速检测对于采
草地早熟禾(Poa pratensis L.)属冷季型草坪草,是温带地区重要的草种之一。它具有色美、抗寒、耐荫、耐修剪等优点,在我国北方地区多被用于建造草坪。但草地早熟禾也有一些缺点,如
1960年8月生于昆明市,曾就读西南大学美术学院、中央美术学院壁画系研究生课程班,曾作为访问学者在中央美术学院壁画系进行军事历史画专题创作研究。中国美术家协会会员,北京昌平美术家学会主席,现任职中国军事博物馆美术创作室副研究员。  李如作品的特点是气势恢弘、大气磅礴,在绘画构图的“势”上颇下功夫。这种“势”与韵律、节奏在李如的作品中显得更加鲜明突出。  ——著名艺术评论家 邵大箴  李如的《鲁迅先