基于句法语义特征的中文实体关系抽取

来源 :北方文学·下旬 | 被引量 : 0次 | 上传用户:tinnagirl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:实体关系特征的选择是实体关系抽取的核心问题。在以前的研究主要要是以实体原始特征和词法特征来体现实体关系,在一定程度上来说很难再将抽取效果进一步提高。本文在传统的研究基础之上,阐述一种以语义和句法为主要特征进行抽取的新方法,并且融入了谓词、句法和语义等一些角色,将SVM作为辅助工具,将真实的新闻消息进行试验。
  关键词:句法语义特征;关系抽取
  相对而言,由于中文语言结构的独特性和语义的复杂性,中文实体关系抽取研究整体上与国外的研究还存在一定差距,常用的基于浅层语法分析获取特征的方法已经达到瓶颈。本文也将采用 SVM模型训练语料,但于以往不同的是,该方法扩展了实体关系特征的选择范围,除了传统的词法特征、实体原始特征外,又选择了句法特征、语义特征等作为实体关系特征,主要包 括语义 角 色标注、依存 句法关系、核心谓词特征等,并依据中文的语法特点对这些特征进行有机整合,得到二元实体对之间的丰富关系特征,最后交由SVM 进行训练和测试。
  一、本文的主要研究方法
  (一)SVM的实体关系与句法语义特征抽取方法过程
  研究方法依据LTP-Cloud对原始语料进行简单的初步处理,利用LTP-Cloud对原始语料的词、句法作为分析结果的基础,之后生成二元实体对,将实体对的特征数据采集起来,转化成训练文本,然后再将训练文本交给SVM进行强化训练。这不仅是本文的创新内容还是最主要的核心部分,因为LTP-Cloud主要以单个句子为研究对象,这就需要我们获取命名实体信息,将实体句子相互结合,形成实体对,假如说只有一个实体或者是没有实体,那就说明不存在真正的实体关系,就需要我们将其去掉。
  (二)实体关系的基本特征
  常规的实体关系特征主要从词法分析结果来获取,以往的研究已经表明了这些特征的有效性。面向句子中所有实体组成的二元实体对,本文选择的基本实体关系主要特征如下:
  1.实体种类。目前LTP-Cloud能够识别的实体种类有人名、地名、组织机构名。
  2.实体长度。根据命名实体结果的标识信息中,获取多词实体的边界,并根据其首尾词的位置来计算实体长度。
  3.实体内容。这里采用词袋机制将实体内容由字符转换为数字。
  4.实体中各词的词性标注。
  5.实体的上下文环境。包括实体前后两个词的内容以及词性标注信息。
  (三)句法语义的主要特征
  本方法对处理结果再进一步的深入研究,可以得到更多的句法语义特征。
  1.句法依存关系。将获取实体对中每一个实体在原句中所属的句法依存关系值。
  2.实体与核心谓词的距离。根据实体首词在句中的位置和核心谓词的位置,计算出每一个实体与核心谓词的距离。
  3.语义角色标注。LTP-Cloud的初步结果中包含了针对所有谓词的语义角色标注结果,但是只有基于核心谓词的语义角色标注的覆盖度是最广的,所以这里也仅选择基于核心谓词的语义角色标注结果作为这一特征来源,获取实体对中每一个实体所属的语义角色成分,将其作为实体关系的一种特征。
  每组实体对的实际特征个数会随着实体长度的不同而不同;这些特征之间的相对位置并不是任意的,需要根据一定的规律合理安排。
  二、试验方法与结果分析
  (一)实验结果评价标准
  预设了4种实体关系种类:人名实体与组织机构实体之间的雇佣关系、组织机构实体与地名实体之间的位于关系、属于同一种实体类型的 同 类 关 系和 无 关 系。由于本文亦将实 体关 系抽取过程看作是分类的过程,所以这里的评价方式也采用常规的准确率、召回率和F1值。
  因为分类标注问题不同于信息检索问题,所以应计算所有实体关系种类的准确率和召回率的平均值,以此作为整体抽取结果的准确率和召回率,并由此得出整体F1值。
  (二)实验设计思路
  本方法用1998年1月份的《人民日报》所有版面内容作为语料,共含有4万多个中文句子。由于LTP-Cloud需要以句子为基本处理对象,所以还需采用基于规则的方法将语料内容进行分句。将上述语料通过LTP-Cloud处理后,可得到含有约8.5万个唯一实体的处理结果,由此可得到约3.6亿个二元实体对,将其中的80%作为训练语料,20% 作为测试语料,进一步分析出实体对中句法语义特征数据,并人工添加实体关系分类标注,最终形成训练语料。采用libSVM作为辅助工具,在SVM的训练过程中,选择RBF作为核函数,采用交叉验证法,得到最优参数c=2.0, g=0.5, CV rate=73.1905。实验程序采用Python语言编写实现。
  (三)实验结果分析
  为了与传统研究方法进行比较,对比组选取传统的基本特征,实验组在原有传统基本特征的基础之上加入句法语义特征。
  通过以上的统计结果研究显示,实验组的抽取效果很明显的优越于对照组。同时位于关系、同类关系和无关系的效果更加明显一些,所以说本研究方法是有一定的实际意义的。
  但是其中也存在一个明显的问题,从局部来看,部分实体关系抽取的效果相对较差,例如,人名实体与组织机构实体之间的雇佣关系。在实体对中,并不是只要存在一个人名实体与一个组织机构实体,就应认定他們之间存在雇佣关系,只是在句中的位置、具体的词不同,所以这就容易导致分类错误。
  三、结束语
  本文提出了一种基于句法语义特征的实体关系抽取方法,与以往的实体关系抽取方法相比,本文新增了句法分析结果和语义分析结果作为为实体关系的特征,实验结果表明此方法效果明显。另外,本方法以句子为处理单位,缺少篇章处理的视野,未来将在上述方面继续做深入研究。
  参考文献:
  [1]徐健,张智雄,吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术,2014,24(08):18-23.
其他文献
【摘要】如果房地产登记工作落实不到位,不仅会导致房产行业的发展无法均衡,甚至会对人们的基础生活产生影响。因此不同的管理部门与执法部门之间必须加大管理工作的信息交换与共享力度,让不动产登记制度中的问题得到有效解决。  【关键词】不动产登记;房地产;经济发展;重要性  1、不动产登记的内涵分析  对不动产进行信息登记,最为直接的目的就是对产权人的切身利益进行保护,让其不动产得到更为全面的维护。同时,对
摘要:《观赏鱼养殖》 是水产养殖学专业课程体系中的重要的一门课,这门课是随着近些年来观赏鱼产业在我国的快速发展而蓬勃发展起来的。随着我国的水产事业不断的发展,对观赏鱼的需求也与日俱增,但是人才的匮乏是制约着水产养殖事业发展的瓶颈,本专业的高职专科面临着招生的巨大压力,即使社会对水产养殖人才的巨大需求,但是每年水产专业的毕业生依然凤毛麟角,随着水产产业的快速发展,课程内容不断更新、 扩充和完善。 伴
摘要:陶瓷制品在我国产生及发展的历史悠久,并且伴随着人们生活与质量的不断发展与提升,人们对于陶瓷制品的造型、形态等的要求在不断的增加。进而,陶瓷制品在制作的过程中对相关造型中细节设计的要求与标准也在不断的增加。通过在整体的造型中对增加相关细节方面的设计,不仅能够提升整個陶瓷作品的美感及审美性,使得相关的作品更加的生动形象,此外还能够有效的提升整个陶瓷作品在的艺术效果,增加陶瓷作品的细节美感。细节设
近日,银监会发布,要求各大商业银行对小企业贷款单列规模,单独考核,以确保新增信贷总量真正用于支持小企业.
本文从建立学生分类指导体系为核心思想的新视角出发,针对新常态下毕业生数量的不断增加与社会精准需求所造成的供需矛盾,尝试从高校资源和学生自身两个角度进行分析与探索,
摘要:程度副词一直是语法学界研究的重点,在日常交流中,程度副词通常用来加强说话者的语气、态度,并影响着人际功能的实现,但是对于外族汉语学习者们很难像本族语使用者那样对程度副词运用自如。本文主要基于北京大学现代汉语语料库(CCL)分析、比较副词“稍微”类在语法、语义、语用等多個角度的用法及差异,希望能对副词“稍微”类在第二语言教学和习得过程中产生一定的指导意义。  关键词:北京大学现代汉语语料库(C
【摘要】房地產价值评估工作,需要基于我国现有的房地产评估方法结合实践进行深入的研究分析。目前收益法应用相对较多,笔者将从房地产估价方法的实际情况以及基本特征,将收益法在房地产估价阶段的常见问题进行分析处理,经过深入的探究与论述,提出相应的改进意见,以期能够给读者带来借鉴参考价值。  【关键词】房地产评估;收益法;应用研究  1、房地产评估主要方法  我国整体来看房地产行业的起步相对较晚,评估理论体
随着我国城市化进程的加快,森林资源面积也呈现出减少的趋势.毋庸置疑,火灾是需要重点防范的,因其会造成较严重的后果.在森林防火中,科学有效运用营林技术,既可加强火灾防范,
心理学研究表明,学生在学习知识、技能的过程中遵循一定的认知规律。遵循学生的认知规律,让学生在符合自身认知规律的教学活动中成长,这样的教学才会变得更有效。在教学中对学生认知规律的尊重是对学生成长成才的最大关怀。教师只有深入了解学生的认知规律,并按照学生的认知规律进行教学,才能达到预期的教学目标。  物理知识不应该简单的由教师或其他人传授给学生,而应由每个学生依据自身的已有知识和经验主动地加以建构,因
期刊