基于无短语标记树库的句法分析方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mbqgg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理领域的关键技术之一,在自然语言处理中具有十分重要的地位,它在机器翻译、信息检索、语音识别等研究中都有重要应用。在机器翻译的一些应用中,只需要句法边界信息而不需要短语标记信息。主流的句法分析方法都是既产生句法边界又产生短语标记,并且在分析过程中需要利用短语标记信息。本文的目标是得到句法边界信息,并不需要短语标记信息,因此本文主要研究能否不利用短语标记信息而直接利用词和词性信息得到句法边界的问题。仅仅利用词和词性的边界分析相当于基于无短语标记树库的句法分析。句法树中的短语可以分为一元短语和非一元短语。由于一元短语在树库中的比例比较小,并且将一元短语边界分析和非一元短语边界分析分开,有助于减少两个阶段的歧义性,因此本文首先进行非一元短语边界分析,然后在非一元短语边界分析结果的基础上进行一元短语边界分析。本文提出了两种可行的非一元短语边界分析方法,一种是基于层次分析的边界分析方法,另一种是基于移进归约的边界分析方法。基于层次的边界分析方法将边界分析问题转化为层次组块分析问题,自底向上按层进行分析,该种方法在英语标准测试集上的F-测度接近85%。基于移进归约的边界分析方法分为两个阶段,首先进行基本短语边界分析,然后进行嵌套短语边界分析,基本短语边界分析采用组块分析的方法,嵌套短语边界分析采用移进归约的方法,该方法在英语标准测试集上的F-测度接近88%。这两种方法在分析过程中都没有利用短语标记信息,分析结果也都没有产生短语标记。本文最后在基于移进归约的边界分析方法基础上进行了一元短语边界预测,将一元短语边界预测问题转化为预测由非一元短语边界预测结果形成的句法树中每个节点需要派生的一元规则个数的问题,并提出了一个层次分析模型来进行个数预测,实验结果表明该方法能有效的预测一元短语边界。通过基于移进归约的非一元短语边界分析和一元短语边界分析两个过程,本文得到了一个完整的边界分析器,其边界分析性能已经与斯坦福句法分析器(Stanford Parser)相当。本文的工作证明了不利用短语标记信息而仅仅利用词和词性信息直接进行句法边界分析是可行的。
其他文献
随着计算机和互联网的快速发展,平板电脑、电子书写板、各种数码笔等电子笔输入设备得到了广泛应用,用户能在更大的界面上自由地、无约束地输入文本信息。因此,联机连续手写字符
超分辨率图像重建是一个利用多帧具有互补信息的低分辨率图像复原出一幅高分辨率图像的过程。这项技术在遥感、军事、医学和公共安全等领域具有十分重要的应用价值和广阔的应
目前,UML已经成为软件建模的标准语言,UML状态图描述了系统在其生命周期中的动态行为。随着系统规模的扩大和复杂度的提高,UML状态图往往包含设计者所未预料到的隐患,如何保
随着经济的发展,为了让更多的国外企业了解到国内的生产厂家信息,及时进行业务联系,经济信息之间的交流尤其是作为“企业身份证”的组织机构代码信息的交流变得非常重要,充分利用
当今,网络信息安全成为制约以身份认证为基础的电子商务、政务快速发展的重要因素。指纹唯一性、不变性决定了指纹识别是逐渐成熟的最重要的生物识别技术。公钥基础设施PKI (
随着蠕虫病毒等大规模安全事件的频繁爆发,互联网用户的损失与日俱增,对于大规模网络异常事件的宏观预警问题的研究,变得越来越紧迫。然而多数安全事件对网络的影响和危害很
软件定义网络(SDN)为网络的管理提供了高度的可扩展性。随着网络规模的扩大,网络规则的频繁更新,SDN交换机需要频繁地在控制层和数据层之间切换,为交换机的正确性留下了隐患
目前智能手机市场上已经有多款手机搭载了例如指纹,虹膜识别等生物特征识别技术。生物特征识别技术不再仅仅是出现在那些好莱坞的大片中,它已经走进了我们的日常生活。本文研
随着网格技术的不断发展,一切网格应用都被抽象封装成为“服务”,需要为用户提供可靠、有保障的服务质量(QoS)。在这种情况下,需要良好的网格资源映射优化策略有效的分配资源
在信息化的时代,视频监控得到了长足的发展,每天从监控中产生的大量数据里面存在很多不必要的信息。这些不必要的信息占用了存储资源。如何从这些视频中提取出有用的信息,是