基于树库统计信息的广覆盖汉语完全句法分析器的研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:aaronfly08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文研究了基于汉语树库构造概率句法分析器的问题.在概率模型方面,该文扩展了PCFG的定义,提出了三个逐步详尽化的模型.新的模型突破了PCFG不合理的独立性假设,把局部结构上下文对于派生过程的约束作用加以刻画.该文也提出了具有一般性的操作过程,令这种扩展易于推广.该文报告了在宾州中文树库上取得的实验结果,最好的模型在标记精确率上可以达到77.2﹪,在标记召回率上可以达到77.7﹪.在算法方面,该文深入研究了Chart算法的优化,提出了更为有效和通用的预读机制,应用或提出了多种筛选活动边的策略.在算法的概率化方面,该文提出了行之有效的控制机制,并且提出了利用阈值控制活动边数量的方案.在牺牲1-2﹪的准确性的前提下,可以提高分析速度30-50﹪.
其他文献
通过对目前研究现状的分析表明椭圆曲线密码系统的安全性是很高的.最有效的攻击方法也必须面对指数阶的运算量,这在实际中是不奏效的.椭圆曲线密码系统已经成为众多国际标准
本文首先阐述了几十年来软件开发一直出现成本高、质量低、进度缓慢、不能按时交付用户等问题的主要原因:(1)难于真正理解系统需求;(2)软件开发没有遵循一个确定的、供开发人员
中文机构名称的自动识别对提高汉语自动分词的精确率有着重要的意义,也是自然语言理解、机器翻译、信息抽取和信息检索的基础。 由于机构名称和姓名同属于专名,而且两者在组
随着我国公路交通事业的发展,提高公路交通配套设施的自动化程度及其效率日益成为关注的焦点。基于视频、静态图像的车辆自动化识别(AVI)系统以其所具有的在系统安装、图像回
随着分布式应用规模的日益庞大,分布式系统中不可避免地包括各种异构实体。CORBA提供了分布式环境中对象之间的透明性互操作,使应用程序可独立于软硬件平台、网络协议、编程语
该文在深入研究RSVP工作机制和QoS路由算法的基础上,提出了一种支持RSVP的动态分布式QoS路由模型.与传统的综合服务模型相比,它在以下几方面进行了改进:(1)采用基于带宽和延
学位
作为超级终端内的关键模块,LTE脱网网关主要负责脱网模式下超级终端的弹性组网功能以及为最终用户设备提供不间断的接入服务,并实现LTE小型化基站和卫星通信模块之间的数据交换
随着因特网的高速发展、家用计算机的普及和人们对高速快捷的商业行为的要求,在世界的范围内电子商务得到了较大的发展,一些传统的商业行为正在逐渐被电子商务所取代。在电子商
该文归纳了海量数据库中小模式发现的研究现状及热点问题,并在此基础上分别对例外规则和离群点展开了研究和探索,提出了自己的定义,同时给出了适合于大规模复杂数据集的挖掘