基于词元语义特征的汉语框架排歧技术研究

来源 :山西大学 | 被引量 : 4次 | 上传用户:aqlgx123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,语义分析已经引起了自然语言处理领域越来越多的关注。随着SemEval2007任务Task19的提出,框架语义抽取任务受到了越来越多研究学者的关注。框架排歧任务是框架语义结构抽取任务中的子任务,作为中间环节,占有基础又重要的地位。目前常用的框架排歧方法是人工设定模型和特征模板,研究表明这种方法不能充分利用目标词所激起的框架的语义特征,因而,本文研究了基于语义特征的汉语框架排歧。框架排歧最重要的两个步骤就是模型选择和特征选择。针对模型选择,本文将汉语框架排歧看作是一个单点分类问题,考察了SVM模型和最大熵模型对汉语框架排歧的影响。针对特征选择,目前常用的方法是人工特征选择方法,但是这种方法不能有效地利用每个目标词的语义特征,而且大量实验表明,不同的目标词取得最好的结果时所用的特征模板是不同的。为此,本文提出了自动特征选择算法,即为每个目标词自动选择一个特征模板。本文的主要研究内容与贡献包括:(1)基于词元语义特征的汉语框架排歧模型。分别阐述了SVM模型和最大熵模型,研究了这两种模型在词法层面和句法层面对汉语框架排歧性能的影响。实验结果表明,最大熵模型更适合汉语框架排歧。(2)基于词元语义特征的汉语框架排歧特征选择。使用最大熵模型,采用传统的人工特征选择方法和本文提出的自动特征选择方法进行汉语框架排歧。实验结果显示,自动特征选择方法在时间复杂度和空间度要明显优于人工特征选择方法,而且简化了特征模板。(3)使用most-frequent frame方法作为baseline实验,并与其他汉语框架排歧的文献结果进行对比分析。此外,从词法和句法层面验证了自动特征选择方法的有效性。本文在语料扩充的基础上,借助汉语框架网语义资源,利用词元的语义特征,为每个歧义目标词单独采用最大熵模型建模,并使用自动特征选择算法选出的特征模板,进行5-fold交叉验证,平均精确率可达到84.46%。
其他文献
随着计算机技术的迅猛发展,传统的石油钻探技术与计算机相关技术相结合,从而提高了录井导向技术的水平。井位图是录井导向技术的重要工具,它反映了地下油层的分布情况。等深
随着全球高科技技术的发展和新型产业的崛起,很大程度上刺激了经济的高速发展。人才无疑成为高新技术和新型产业的发展中的核心因素,直接决定其未来发展的潜能量。目前,由于对人力资源的不合理的使用配置,造成对人才这一宝贵资源的加大浪费,这无疑对软件企业的发展尤为不利。本文基于目前软件企业存在的人力资源配置的问题,对其本质进行一定的研究与探讨,剖析出软件企业人员配置中的关键因素。通过理论结合实际,开发出了软件
物流配送是物流活动中一种非单一的业务形式,它与商流、物流、资金流紧密结合,并且主要包括了商流活动、物流活动和资金流活动,可以说它是包括了物流活动中大多数必要因素的一种
无线传感器是由微型电池驱动的设备具有能量有限的特点;在无线传感器网络中包含了大量的无线路由传感器。一旦这些电池安置在这些传感器当中,我们便很难去人为的更换电池,耗尽
移动Ad hoc网是一种多跳的、无中心的、自组织无线网络,又称为多跳网(Multi-hopNetwork)、无基础设施网(Infrastructureless Network)或自组织网(Self-organizingNetwork)。Ad
主机基数定义为一段时间内网络中的某主机链接的其他不同主机的数量,对于主机基数的检测是当前网络测量中的一个重要内容。随着互联网的发展,网络入侵事件频繁发生,如蠕虫病
在录井导向过程中,使用可视化处理技术将抽象数据转化成为直观形象的图件,能够帮助导向师分析地层构造性质,判定目的层的位置,提出合理的导向意见。目前,大部分导向软件对于测井资
基于大数据分析技术,构造新型功能材料信息综合数据平台,提升新材料研发生产设计过程中建模分析、数据筛选和计算效率,是目前是计算机及材料科学研究专家正在研究的热点。同
随着计算机、电子及信息技术的飞速发展,人们之间的信息交流变得越来越方便。海量的多媒体信息通过移动终端自由的传输和存储,由此带来的视觉信息爆炸问题日益严重。海量、非结
在普适计算的环境上,人与情境感知设备的交互应该简单而自然的。然而,在计算机可以融入到我们周围环境、进入我们的日常生活之前,仍然有许多问题需要解决。如果用户不能理解情境