论文部分内容阅读
近年来,语义角色标注在信息检索、问答系统等自然语言处理领域应用越来越广泛,但是大部分的研究主要针对于英文,其它语言由于缺少良好的标注语料,其研究相对较少。不久前,宾夕法尼亚大学发布了人工标注的汉语语料Chinese Propbanko本文中,我们尝试使用条件随机场的机器学习算法对Chinese Propbank1.0进行有监督的学习。在研究中,除了使用已有的一些基础特征之外,我们还提出了四个新特征,并通过大量的实验验证了特征的有效性,从最终的结果来看,每一个新特征都对实验结果起到正向作用。为了缩短训练时间,提高实验结果,我们采用两阶段分类的方法。在第一阶段先进行二元分类,判别一个句法成分是否为语义角色,然后对第一阶段中的语义角色再进行多元分类,给其分配具体的语义角色。由于考虑到第一阶段二元分类的准确率,召回率问题,我们选取相应的值作为门限概率以进行非语义角色的过滤,这在一定程度上召回了部分被错误判断的句法成分,提高了最终的实验结果。最终,我们选取了大量的门限值,从结果来看当门限值为0.5时,其实验结果可以达到最好,其准确率超过80%,F-score也将近80%。这在中文语义角色标注领域是令人满意的结果,我们相信,如果后期能加入更具有区分性的特征,实验结果一定会进一步得到提高。