汉语框架自动识别中的歧义消解

来源 :山西大学 | 被引量 : 4次 | 上传用户:shamobingshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言理解是实现人与计算机之间有效的通信的一种技术。在自然语言中,一词多义的现象普遍存在,因此,词义的歧义消解是自然语言理解中重要的环节之一。词汇的框架义是词汇的一种意义表示。汉语框架的自动识别就是对句子中给定的词语,根据其上下文环境自动识别出其激起的框架。框架自动识别技术是大规模自动构建语义语料库的有效途径,同时也为框架语义的自动分析提供分析工具,其深入研究将有效地推动中文信息检索、问答系统、机器翻译和文本分类等技术的向前发展。考虑到目前汉语框架网络知识库仍在完善中,词元列表、框架列表还有待扩充,本文根据框架语义中自然语言自动语义分析的要求,将汉语框架自动识别任务分解为词元识别、未知框架检测和框架消歧义三个子任务,本论文主要关注汉语框架自动识别中的歧义消解任务。该任务主要基于上下文环境,对给定句子中的目标词从现有的框架库中为该目标词自动标注一个合适的框架。本文将该任务看作多类分类问题,使用最大熵对其进行建模本文从当前的汉语框架语义知识库的1960个词元中选取了同时能够激起两个以上框架且例句数相对较多的88个词元的2077条例句,按3-fold交叉验证切分为训练集和测试集。本文基于词的框架消歧模型,构造了词层面、基本块层面,以及依存句法层面的若干特征,并使用了开窗口技术和BOW策略。在测试集上,基于词的汉语框架自动消歧baseline模型的精确率(Accuracy)达到了64.42%。本文在Baseline基础上加入BOW特征,测试集上的精确率达到了68.37%,比原有方法提高了3.95%。这表明:BOW特征,即目标词与其它词的搭配信息在框架消歧任务中起重要作用,这基本符合语言学的规律。进一步,基于清华大学的基本块分析器,本文对语料中的所有例句进行自动分析,并抽取基本块层面的特征加入到baseline模型中,测试集上精确率没有提高,仍然是64.42%。这表明BC特征对框架消歧任务基本不起作用。通过对结果的分析可知,自动基本块分析器的性能在开放语料环境下并不理想是导致性能没有提高的主要原因。此外,基于Stanford、HIT和Mate三个依存句法分析器对全部语料自动分析得到的依存句法树,分别抽取依存句法层面的特征分别加入到baseline模型中。测试集上最好的结果是基于Mate分析器的,比Stanford和HIT的结果高近2个百分点。实验结果中,三组实验较Baseline模型都有不同程度的提高,表明依存句法层面的特征对框架消歧任务有一定的作用。然而,测试结果提高的幅度不大,主要原因是自动分析器在开放语料测试环境下的性能不理想。最后,本文进行融合基于词层面特征、BOW策略和Mate依存句法层面特征进行实验,选取最优模型,实验的最好结果精确率达到69.28%。这是目前最好的框架消歧结果。
其他文献
该文主要研究以下三部分内容:1、在第二节,研究人员研究了集合E△在拟共形映照下的像区域在边界情形的性态,给出了一个判别爆破集的充分条件,并研究了径向拟向共形映照的面积
该文给出了一个求解非线性不等式约束优化问题的可行信赖域折线算法.该算法建立在由序列二次规划方法产生的一列可行点的基础上,算法在每一次迭代的修正步由两个动态向量h和v
该文主要目的是研究C-量子群和乘法酉算子.一方面讨论Kac-系统在HilbertC-模中的作用;另一方面讨论与C-量子群密切相关的乘法酉算子的构造及紧量子群的余表示和对偶量子群的
该文[2][3]分别定义了正规幂群、一致幂群,较系统地研究了各种幂群的结构.文[4]-[9]分别研究了各种幂群的性质、结构、分类、同态和同构关系.文[10][11]将拓扑群的两个数学结
该文共分为四章.第一章对风险度量尺度的选择提出了四条公理化要求.第二章从分布的角度研究了两类厚尾分布--广义双曲分析和稳定分析,对广义双曲分布中的一类厚尾分布-正态逆
该文通过引进新的距离函数,给出了两类平方和算子即广义Greiner算子△和广义Baouendi-Grushin算子P的Hopf型引理,给出了强极值原理,并分别就两类非线性退化椭圆方程:△+f(ξ,u)=0
该论文主要研究了专家系统工程中知识获取的一个分支:模式识别中如何建立模糊推理规则的问题.分别利用包含度理论、粗糙集理论和遗传算法理论设计了三种算法,用于从二维模式
本研究任务是以福建省科委的立项新产品研制项目为研究背景,采用目前国际上先进的门禁控制技术,结合中国的实际情况,研究设计的一种新型的门禁控制器。论文首先介绍了智能大厦的
非线性问题是现代数学主要研究的问题,非线性方程组及其收敛性理论则是其最基本问题,非线性方程组迭代解算法是计算数学的主要研究方向之一,简单迭代法x
许多并行与分布式系统通常以某种网络作为拓扑结构,譬如彼特森图网络、超立方网络和k元n方体网络等.由于具有易执行、低延迟和高带宽等优良的性质,k元n方体已经成为分布式存储