论文部分内容阅读
【摘要】 物联网实体关系抽取是研究物联网智慧交互的关键问题之一,针对物联网中的自然语言,当前基于树核函数的关系抽取方法因可选择不同的树结构与核函数而被广泛应用,但其尚未很好地利用语义特征导致召回率不高。为解决此问题,本文提出了一种基于语义角色标注的关系抽取模型。实验结果表明,使用语义角色标注有助于提高关系抽取的性能。
【关键字】 关系抽取 语义角色 卷积树核函数
一、引言
智慧物联网的关键是实现智慧交互,发现其实体间的交互关系便成为关键问题之一,而目前物联网对自然语言信息研究不足。因此本文通过研究语义实体关系抽取来进一步地增加物联网的智慧性。
目前Collins的卷积树核函数较其他树核函数更能效捕获结构化特征,具有较高的准确率和召回率,因此在关系抽取及自然语言处理的其它任务中获得了广泛的应用[1]。但是其存在一个关键问题,即其未能充分使用语义信息。Liu等通过加入知网或同义词信息的手段利用了语义信息,但此方法对于一词多义等情况无法处理。基于上述问题,本文提出了一种基于语义角色标注的卷积树核模型。
二、一种基于语义角色标注的卷积树核模型
本文提出的基于语义角色标注的卷积树核模型工作流程为:首先,对经过初步分词标注等处理后的语料进行语义角色标注,生成优化后的SPT解析树;然后,使用卷积树核函数计算,最后将计算结果提交给分类器训练并进行抽取测试,如图1所示。
2.1语义角色标注
语义角色标注(Semantic Role labeling)是指对句子中谓词所支配的词语进行语义成分分析,并自动标注各成分所扮演的语义角色。
如图2所示,语义角色标注主要包括三个任务:
1)识别出句子中的谓词(一般为动词);
2)对识别出的谓词进行语义的判定(如图2中“打人”、“打游戏”中的“打”具有不同的语义);
3)识别谓词支配词(论元),并对其的角色做出判定(施事、受事、时间、方式……)。
同样是使用语义信息的方法,加入《同义词词林》或者《知网》的语义特征处理办法只有在标注同义词或者近义词时才能取得效果,但在图2的例句中,两个句子里的谓词“打”在字面上没有任何区别,所以依靠同义词标注不能准确的标注出两句的差异,而语义角色标注却能很高效且准确地解决这一类问题,通过对打字做谓词语义的判定即可区分出两个句子中实体关系的不同。
2.2最短路径包含树的改进方法
最短路径包含树(SPT)虽然含有丰富的结构化信息,但其含有较多的噪声信息并且存在结构化信息不完整的情况,本文在SPT基础上提出了一种最短路径包含树的改进方法。
本文主要使用删除无用修饰结构的方法来切割掉冗余实例结构。冗余修饰结构是指实体的修饰语如形容词、冠词等,由于这些修饰结构距离实体很近,在生成SPT时会留下部分修饰语结构,如果句子的主干比较完整,这些修饰信息对实体关系抽取几乎没有正面影响,反而使分类器的性能降低,所以要将SPT中对实体的修饰结构进行删除。
谓语动词是非常重要的语义元素,很多交互关系可以依靠谓语动词体现。但是初始的SPT算法会在很多情况下切割掉本来有用的动词结构。此外,如果没有谓词结构则语义角色标记就无法进行,所以要恢复被误删的谓词,使得语义角色可以顺利标注。
三、实验结果
本文的实验数据使用“搜狗实验室”语料精简版,择取其中700篇文章,其中600篇作为训练语料,100篇作为测试语料;数据经过百度NLPC平台进行预处理;选择libSVM作为SVM分类器。
针对本文提出的卷积树核关系抽取模型,主要通过准确率(P),召回率(R)和综合评价指标(F-Measure:准确率和召回率加权调和平均)来验证关系抽取的性能。本文的实验主要为卷积树核模型引入同义词信息和语义角色后的关系抽取性能验证;
表1 添加语义角色和同义词信息的性能比较如表1所示,本文设计的卷积核树模型在进行语义角色标注后,准确率和召回率较加入同义词信息的方法均有提升,证明在利用语义信息的方法上,语义角色性能强于同义词信息。
四、总结与展望
本文在智慧物联的背景下提出一种基于语义角色标注的关系抽取方法,充分利用了角色语义信息,提升了卷积树核模型的性能。不过该模型依然有待改进之处:在生成最短路径包含树时,有动词会被误删,所以后续会进一步优化最短路径树算法。
参 考 文 献
[1] Collins M, Duffy N. Convolution kernels for natural language[C].Advances in neural information processing systems. 2001: 625-632.
[2]徐靖. 基于特征的中文名词性谓词语义角色标注研究[D]. 苏州大学, 2011.
【关键字】 关系抽取 语义角色 卷积树核函数
一、引言
智慧物联网的关键是实现智慧交互,发现其实体间的交互关系便成为关键问题之一,而目前物联网对自然语言信息研究不足。因此本文通过研究语义实体关系抽取来进一步地增加物联网的智慧性。
目前Collins的卷积树核函数较其他树核函数更能效捕获结构化特征,具有较高的准确率和召回率,因此在关系抽取及自然语言处理的其它任务中获得了广泛的应用[1]。但是其存在一个关键问题,即其未能充分使用语义信息。Liu等通过加入知网或同义词信息的手段利用了语义信息,但此方法对于一词多义等情况无法处理。基于上述问题,本文提出了一种基于语义角色标注的卷积树核模型。
二、一种基于语义角色标注的卷积树核模型
本文提出的基于语义角色标注的卷积树核模型工作流程为:首先,对经过初步分词标注等处理后的语料进行语义角色标注,生成优化后的SPT解析树;然后,使用卷积树核函数计算,最后将计算结果提交给分类器训练并进行抽取测试,如图1所示。
2.1语义角色标注
语义角色标注(Semantic Role labeling)是指对句子中谓词所支配的词语进行语义成分分析,并自动标注各成分所扮演的语义角色。
如图2所示,语义角色标注主要包括三个任务:
1)识别出句子中的谓词(一般为动词);
2)对识别出的谓词进行语义的判定(如图2中“打人”、“打游戏”中的“打”具有不同的语义);
3)识别谓词支配词(论元),并对其的角色做出判定(施事、受事、时间、方式……)。
同样是使用语义信息的方法,加入《同义词词林》或者《知网》的语义特征处理办法只有在标注同义词或者近义词时才能取得效果,但在图2的例句中,两个句子里的谓词“打”在字面上没有任何区别,所以依靠同义词标注不能准确的标注出两句的差异,而语义角色标注却能很高效且准确地解决这一类问题,通过对打字做谓词语义的判定即可区分出两个句子中实体关系的不同。
2.2最短路径包含树的改进方法
最短路径包含树(SPT)虽然含有丰富的结构化信息,但其含有较多的噪声信息并且存在结构化信息不完整的情况,本文在SPT基础上提出了一种最短路径包含树的改进方法。
本文主要使用删除无用修饰结构的方法来切割掉冗余实例结构。冗余修饰结构是指实体的修饰语如形容词、冠词等,由于这些修饰结构距离实体很近,在生成SPT时会留下部分修饰语结构,如果句子的主干比较完整,这些修饰信息对实体关系抽取几乎没有正面影响,反而使分类器的性能降低,所以要将SPT中对实体的修饰结构进行删除。
谓语动词是非常重要的语义元素,很多交互关系可以依靠谓语动词体现。但是初始的SPT算法会在很多情况下切割掉本来有用的动词结构。此外,如果没有谓词结构则语义角色标记就无法进行,所以要恢复被误删的谓词,使得语义角色可以顺利标注。
三、实验结果
本文的实验数据使用“搜狗实验室”语料精简版,择取其中700篇文章,其中600篇作为训练语料,100篇作为测试语料;数据经过百度NLPC平台进行预处理;选择libSVM作为SVM分类器。
针对本文提出的卷积树核关系抽取模型,主要通过准确率(P),召回率(R)和综合评价指标(F-Measure:准确率和召回率加权调和平均)来验证关系抽取的性能。本文的实验主要为卷积树核模型引入同义词信息和语义角色后的关系抽取性能验证;
表1 添加语义角色和同义词信息的性能比较如表1所示,本文设计的卷积核树模型在进行语义角色标注后,准确率和召回率较加入同义词信息的方法均有提升,证明在利用语义信息的方法上,语义角色性能强于同义词信息。
四、总结与展望
本文在智慧物联的背景下提出一种基于语义角色标注的关系抽取方法,充分利用了角色语义信息,提升了卷积树核模型的性能。不过该模型依然有待改进之处:在生成最短路径包含树时,有动词会被误删,所以后续会进一步优化最短路径树算法。
参 考 文 献
[1] Collins M, Duffy N. Convolution kernels for natural language[C].Advances in neural information processing systems. 2001: 625-632.
[2]徐靖. 基于特征的中文名词性谓词语义角色标注研究[D]. 苏州大学, 2011.