论文部分内容阅读
摘要:实体关系特征的选择是实体关系抽取的核心问题。在以前的研究主要要是以实体原始特征和词法特征来体现实体关系,在一定程度上来说很难再将抽取效果进一步提高。本文在传统的研究基础之上,阐述一种以语义和句法为主要特征进行抽取的新方法,并且融入了谓词、句法和语义等一些角色,将SVM作为辅助工具,将真实的新闻消息进行试验。
关键词:句法语义特征;关系抽取
相对而言,由于中文语言结构的独特性和语义的复杂性,中文实体关系抽取研究整体上与国外的研究还存在一定差距,常用的基于浅层语法分析获取特征的方法已经达到瓶颈。本文也将采用 SVM模型训练语料,但于以往不同的是,该方法扩展了实体关系特征的选择范围,除了传统的词法特征、实体原始特征外,又选择了句法特征、语义特征等作为实体关系特征,主要包 括语义 角 色标注、依存 句法关系、核心谓词特征等,并依据中文的语法特点对这些特征进行有机整合,得到二元实体对之间的丰富关系特征,最后交由SVM 进行训练和测试。
一、本文的主要研究方法
(一)SVM的实体关系与句法语义特征抽取方法过程
研究方法依据LTP-Cloud对原始语料进行简单的初步处理,利用LTP-Cloud对原始语料的词、句法作为分析结果的基础,之后生成二元实体对,将实体对的特征数据采集起来,转化成训练文本,然后再将训练文本交给SVM进行强化训练。这不仅是本文的创新内容还是最主要的核心部分,因为LTP-Cloud主要以单个句子为研究对象,这就需要我们获取命名实体信息,将实体句子相互结合,形成实体对,假如说只有一个实体或者是没有实体,那就说明不存在真正的实体关系,就需要我们将其去掉。
(二)实体关系的基本特征
常规的实体关系特征主要从词法分析结果来获取,以往的研究已经表明了这些特征的有效性。面向句子中所有实体组成的二元实体对,本文选择的基本实体关系主要特征如下:
1.实体种类。目前LTP-Cloud能够识别的实体种类有人名、地名、组织机构名。
2.实体长度。根据命名实体结果的标识信息中,获取多词实体的边界,并根据其首尾词的位置来计算实体长度。
3.实体内容。这里采用词袋机制将实体内容由字符转换为数字。
4.实体中各词的词性标注。
5.实体的上下文环境。包括实体前后两个词的内容以及词性标注信息。
(三)句法语义的主要特征
本方法对处理结果再进一步的深入研究,可以得到更多的句法语义特征。
1.句法依存关系。将获取实体对中每一个实体在原句中所属的句法依存关系值。
2.实体与核心谓词的距离。根据实体首词在句中的位置和核心谓词的位置,计算出每一个实体与核心谓词的距离。
3.语义角色标注。LTP-Cloud的初步结果中包含了针对所有谓词的语义角色标注结果,但是只有基于核心谓词的语义角色标注的覆盖度是最广的,所以这里也仅选择基于核心谓词的语义角色标注结果作为这一特征来源,获取实体对中每一个实体所属的语义角色成分,将其作为实体关系的一种特征。
每组实体对的实际特征个数会随着实体长度的不同而不同;这些特征之间的相对位置并不是任意的,需要根据一定的规律合理安排。
二、试验方法与结果分析
(一)实验结果评价标准
预设了4种实体关系种类:人名实体与组织机构实体之间的雇佣关系、组织机构实体与地名实体之间的位于关系、属于同一种实体类型的 同 类 关 系和 无 关 系。由于本文亦将实 体关 系抽取过程看作是分类的过程,所以这里的评价方式也采用常规的准确率、召回率和F1值。
因为分类标注问题不同于信息检索问题,所以应计算所有实体关系种类的准确率和召回率的平均值,以此作为整体抽取结果的准确率和召回率,并由此得出整体F1值。
(二)实验设计思路
本方法用1998年1月份的《人民日报》所有版面内容作为语料,共含有4万多个中文句子。由于LTP-Cloud需要以句子为基本处理对象,所以还需采用基于规则的方法将语料内容进行分句。将上述语料通过LTP-Cloud处理后,可得到含有约8.5万个唯一实体的处理结果,由此可得到约3.6亿个二元实体对,将其中的80%作为训练语料,20% 作为测试语料,进一步分析出实体对中句法语义特征数据,并人工添加实体关系分类标注,最终形成训练语料。采用libSVM作为辅助工具,在SVM的训练过程中,选择RBF作为核函数,采用交叉验证法,得到最优参数c=2.0, g=0.5, CV rate=73.1905。实验程序采用Python语言编写实现。
(三)实验结果分析
为了与传统研究方法进行比较,对比组选取传统的基本特征,实验组在原有传统基本特征的基础之上加入句法语义特征。
通过以上的统计结果研究显示,实验组的抽取效果很明显的优越于对照组。同时位于关系、同类关系和无关系的效果更加明显一些,所以说本研究方法是有一定的实际意义的。
但是其中也存在一个明显的问题,从局部来看,部分实体关系抽取的效果相对较差,例如,人名实体与组织机构实体之间的雇佣关系。在实体对中,并不是只要存在一个人名实体与一个组织机构实体,就应认定他們之间存在雇佣关系,只是在句中的位置、具体的词不同,所以这就容易导致分类错误。
三、结束语
本文提出了一种基于句法语义特征的实体关系抽取方法,与以往的实体关系抽取方法相比,本文新增了句法分析结果和语义分析结果作为为实体关系的特征,实验结果表明此方法效果明显。另外,本方法以句子为处理单位,缺少篇章处理的视野,未来将在上述方面继续做深入研究。
参考文献:
[1]徐健,张智雄,吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术,2014,24(08):18-23.
关键词:句法语义特征;关系抽取
相对而言,由于中文语言结构的独特性和语义的复杂性,中文实体关系抽取研究整体上与国外的研究还存在一定差距,常用的基于浅层语法分析获取特征的方法已经达到瓶颈。本文也将采用 SVM模型训练语料,但于以往不同的是,该方法扩展了实体关系特征的选择范围,除了传统的词法特征、实体原始特征外,又选择了句法特征、语义特征等作为实体关系特征,主要包 括语义 角 色标注、依存 句法关系、核心谓词特征等,并依据中文的语法特点对这些特征进行有机整合,得到二元实体对之间的丰富关系特征,最后交由SVM 进行训练和测试。
一、本文的主要研究方法
(一)SVM的实体关系与句法语义特征抽取方法过程
研究方法依据LTP-Cloud对原始语料进行简单的初步处理,利用LTP-Cloud对原始语料的词、句法作为分析结果的基础,之后生成二元实体对,将实体对的特征数据采集起来,转化成训练文本,然后再将训练文本交给SVM进行强化训练。这不仅是本文的创新内容还是最主要的核心部分,因为LTP-Cloud主要以单个句子为研究对象,这就需要我们获取命名实体信息,将实体句子相互结合,形成实体对,假如说只有一个实体或者是没有实体,那就说明不存在真正的实体关系,就需要我们将其去掉。
(二)实体关系的基本特征
常规的实体关系特征主要从词法分析结果来获取,以往的研究已经表明了这些特征的有效性。面向句子中所有实体组成的二元实体对,本文选择的基本实体关系主要特征如下:
1.实体种类。目前LTP-Cloud能够识别的实体种类有人名、地名、组织机构名。
2.实体长度。根据命名实体结果的标识信息中,获取多词实体的边界,并根据其首尾词的位置来计算实体长度。
3.实体内容。这里采用词袋机制将实体内容由字符转换为数字。
4.实体中各词的词性标注。
5.实体的上下文环境。包括实体前后两个词的内容以及词性标注信息。
(三)句法语义的主要特征
本方法对处理结果再进一步的深入研究,可以得到更多的句法语义特征。
1.句法依存关系。将获取实体对中每一个实体在原句中所属的句法依存关系值。
2.实体与核心谓词的距离。根据实体首词在句中的位置和核心谓词的位置,计算出每一个实体与核心谓词的距离。
3.语义角色标注。LTP-Cloud的初步结果中包含了针对所有谓词的语义角色标注结果,但是只有基于核心谓词的语义角色标注的覆盖度是最广的,所以这里也仅选择基于核心谓词的语义角色标注结果作为这一特征来源,获取实体对中每一个实体所属的语义角色成分,将其作为实体关系的一种特征。
每组实体对的实际特征个数会随着实体长度的不同而不同;这些特征之间的相对位置并不是任意的,需要根据一定的规律合理安排。
二、试验方法与结果分析
(一)实验结果评价标准
预设了4种实体关系种类:人名实体与组织机构实体之间的雇佣关系、组织机构实体与地名实体之间的位于关系、属于同一种实体类型的 同 类 关 系和 无 关 系。由于本文亦将实 体关 系抽取过程看作是分类的过程,所以这里的评价方式也采用常规的准确率、召回率和F1值。
因为分类标注问题不同于信息检索问题,所以应计算所有实体关系种类的准确率和召回率的平均值,以此作为整体抽取结果的准确率和召回率,并由此得出整体F1值。
(二)实验设计思路
本方法用1998年1月份的《人民日报》所有版面内容作为语料,共含有4万多个中文句子。由于LTP-Cloud需要以句子为基本处理对象,所以还需采用基于规则的方法将语料内容进行分句。将上述语料通过LTP-Cloud处理后,可得到含有约8.5万个唯一实体的处理结果,由此可得到约3.6亿个二元实体对,将其中的80%作为训练语料,20% 作为测试语料,进一步分析出实体对中句法语义特征数据,并人工添加实体关系分类标注,最终形成训练语料。采用libSVM作为辅助工具,在SVM的训练过程中,选择RBF作为核函数,采用交叉验证法,得到最优参数c=2.0, g=0.5, CV rate=73.1905。实验程序采用Python语言编写实现。
(三)实验结果分析
为了与传统研究方法进行比较,对比组选取传统的基本特征,实验组在原有传统基本特征的基础之上加入句法语义特征。
通过以上的统计结果研究显示,实验组的抽取效果很明显的优越于对照组。同时位于关系、同类关系和无关系的效果更加明显一些,所以说本研究方法是有一定的实际意义的。
但是其中也存在一个明显的问题,从局部来看,部分实体关系抽取的效果相对较差,例如,人名实体与组织机构实体之间的雇佣关系。在实体对中,并不是只要存在一个人名实体与一个组织机构实体,就应认定他們之间存在雇佣关系,只是在句中的位置、具体的词不同,所以这就容易导致分类错误。
三、结束语
本文提出了一种基于句法语义特征的实体关系抽取方法,与以往的实体关系抽取方法相比,本文新增了句法分析结果和语义分析结果作为为实体关系的特征,实验结果表明此方法效果明显。另外,本方法以句子为处理单位,缺少篇章处理的视野,未来将在上述方面继续做深入研究。
参考文献:
[1]徐健,张智雄,吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术,2014,24(08):18-23.