多种特征模板的依存句法分析算法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:gege1232000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依存句法分析是相对与传统短语结构句法分析更有优势的工具。它的优势主要在于简单性和普遍性:它可以让有很少语法背景知识的人快速地了解一个句子的结构并且对于各种语言都用同一种结构来表示。依存句法分析着眼于分析出句子中的修饰关系(比如形容词修饰它后边紧跟的名词)。传统的依存句法分析大致可以分为三类:即基于图的方法、基于转移的方法和半监督的方法。各种方法都有其优势和劣势,但是长距离依存关系对于这些算法来讲都是比较难以克服的问题。其中基于图的方法的研究热点在于引入高阶信息;基于转移的方法的研究热点在于在原来的贪心算法的基础上扩大搜索空间;半监督算法的研究热点在于从互联网或者其他地方找到外部信息加入到原来的特征集中。本文提出一个简单有效的方法,即通过使用基于chunk的信息并且使用多种特征模板来提高依存分析的性能。论文的主要贡献在于使用了多种特征模板并且部分解决了长距离依存问题。首先,本论文使用一个开源的一阶条件随机场模型来训练出一个文本chunker(就是把句子划分成词组);然后针对每一个句子,本论文使用chunk信息和标点符号信息构建出一棵从句-短语树;最后,本论文根据从句-短语树来为依存分析算法抽取出基于chunk的特征并把抽取出来的特征添加到原来的特征集中。本论文对MSTParser算法和Carreras算法进行扩展,实验结果表明本论文的方法显著地超过baseline系统,而且没有使得系统的复杂度变高。如果给定已知的chunk信息,依存句法分析的准确率分别从91.36%和92.20%提高到93.19%和93.89%。
其他文献
随着基因组计划的完成,人类步入后基因组时代,逐渐认识到蛋白质分子在生命过程中的重要性。研究表明,蛋白质分子并不单独发挥作用,它通常与其功能相似的蛋白质分子聚集形成大
移动Ad hoc网络(Mobile Ad Hoc Network, MANET)是一种由无线移动节点组成,是一种无需固定网络基础设施的支持并能够迅速投入使用的网络体系,各个网络节点通过无线信道进行通
互联网技术的发展给人们日常生活带来便利的同时,也使人们淹没在信息的海洋中,很难找到自己所关心和需要的信息。随着web2.0的飞速发展,面对传统搜索引擎暴露出来的诸如不能
随着互联网的普及和云计算的发展,海量数据处理成为IT从业人员越来越重视的课题。海量数据处理常采用并发的方法,即多个线程同时运行在多台处理器上,共同访问和处理共享数据
随着照明技术以及半导体产业的飞速发展,半导体照明技术越来越受到广大厂商的青睐。同时消费者也对照明的易用性、多样性、节能性、高效性,提出了更高的要求。与此同时,由于照明会带来的巨大能耗和产生的环境问题,各国政府也越来越关注半导体照明产业,众多国家发布了淘汰白炽灯的计划,这就为新一代半导体照明即LED照明产业的发展奠定了基础。未来节能与环保成为照明系统发展的主要方向,因此与半导体照明技术相关的控制芯片
随着因特网及数据挖掘技术的快速发展,因特网软件的使用者对个人隐私数据的安全给予了越来越多的关注。通过WEB服务或服务组合建立起来的软件不但要重视功能需求,还应该重视
自P2P网络问世以来,就受到了越来越多的关注,现已被使用在各种各样的网络应用中。P2P网络改变了传统网络中的客户端/服务器模式,采用端对端原则,网络中所有实体之间都是平等
随着互联网的普及,日益增长的网络流量和不断出现的各种网络新应用大大增加了网络的复杂性和管理难度,这严重威胁到网络服务质量和网络安全,对网络管理提出了巨大挑战。在这种情
随着互联网信息的爆炸式增长,信息超载导致人们很难在短时间内从海量信息中获取自己感兴趣的信息,个性化推荐系统作为信息过滤的一利一重要手段应运而生。协同过滤推荐算法是
嵌入式系统具有悠久历史,从上世纪60年代发展至今已取得长足的进展。特别是随着近些年移动互联网和物联网的兴起,嵌入式系统更是发展的如火如荼。aCoral正是由电子科技大学嵌