利用语言概念知识的事件文本分析关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hoko0428001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展带来信息爆炸式增长,其中占主要部分的是以自然语言表示的文本信息。面对海量文本,人们迫切需要从中获取有用知识,而表示“特定发生”的事件知识更是受关注的重点。事件抽取是获取事件知识的一个重要手段,作为细粒度的信息抽取,它在自动文摘、问答系统、信息检索、话题跟踪等领域均能发挥重要作用。事件抽取在发现描述事件文本的基础上对事件类型进行识别,抽取相应事件要素。同时,针对已获取的事件文本,往往伴随着进一步扩展、汇聚及追踪的需求,句子相似度计算则是解决该问题的一项关键技术。  本文利用语言概念空间知识,着重关注句类空间中句子语义结构的特性,结合概念基元空间中的概念知识,对事件描述文本进行分析,研究事件类型识别及事件要素抽取的方法;为满足事件文本的扩展、汇聚及追踪需求,在词语和句子层面开展相似度计算研究。本文工作取得的研究成果如下:  1.提出基于语言概念空间的事件抽取方法,包括事件类型识别和事件要素抽取。该方法从HNC句子分析角度出发,在句类分析得到语义块后,以语义块和句类本身包含的事件概念信息为线索,利用频数指标提出事件类型判断方法。考虑到不同语义块对语句意义表达贡献程度存在差异的事实,加入了权重机制。在完成事件类型识别后,结合句类知识分析语义块和事件要素的对应关系,并建立对应规则,对事件要素进行抽取。与传统基于机器学习的方法相比,本文方法以知识库和规则为驱动,不受训练模型的影响,适用性较好。通过对中文突发事件语料库中语料进行实验,事件类型识别和事件要素抽取的F1测度宏平均分别为0.871和0.768,分别较对比方法提升4.8和6.4个百分点,总体处理效果较好。  2.提出基于搭配概念的相似度计算方法。该方法基于大规模语料统计的思想,通过搭配抽取为概念构建搭配概念向量,以搭配概念向量作为上下文环境,基于上下文环境的相似度来度量概念间的相似度,最后利用词语和概念基元的映射关系实现词语相似度计算。在结果评价上,为了实现对结果的排序一致性度量,本文提出了序对符合度指标。实验表明,该方法的计算结果与人工判断具有较高符合度,相关系数、兼容度和序对符合度分别为0.704、0.768和0.757。其中,相关系数较基于词语搭配的方法提升0.160,较基于《知网》的方法提升0.070,较已有的基于HNC的方法提升0.046。  3.提出基于概念基元符号系统的多维度概念相似度算法。该方法以概念基元符号系统为语义资源,充分考虑概念基元的层次性、网络性、挂靠特性、对比对偶特性及五元组信息,在综合度量各方面相似度后形成概念基元多维度相似度计算方法,最终,利用词语和概念基元的映射关系实现词语相似度计算。此外,在节点深度和节点距离的度量上,提出了权重函数拟合的思想,使计算结果与实际情况趋于一致。实验表明,该方法计算得到的相似度与人工判断结果符合程度较好,相关系数、兼容度和序对符合度分别为0.810、0.827和0.794。其中,相关系数较基于词语搭配的方法提升0.266,较基于《知网》的方法提升0.176,较已有的基于HNC的方法提升0.152,较基于搭配概念的方法提升0.126。  4.提出基于句类分析的句子相似度计算方法。为了能够更全面把握句子意义,该方法以语义块为处理对象。利用句类分析得到句子的语义表示结构,其中句类及语义块类型信息反映出句子的表层相似性,语义块内词语间相似性体现句子语义相似性。该方法融合二者相似性,通过加权的方式计算句子相似度,兼顾语法和语义层面的因素。对人工构建的句子集进行实验,分别应用前述不同的词语相似度计算结果,最终得到的句子相似度与实际情况均较为符合。其中,采用基于概念基元符号系统的相似度计算结果的方法略好于采用基于搭配概念的词语相似度计算结果的方法,其与人工打分的相关系数达到0.813,较基于依存分析的方法提升幅度为0.039。最后,利用词语相似度和句子相似度计算形成事件文本扩展、汇聚和追踪的方法,在小规模事件文本集上进行验证,结果表明该方法具备较好的事件文本扩展能力。
其他文献
目的:探析病人在胃肠外科手术后施行早期肠内营养及护理情况.方法:盲选于我院(2017年1月12日-2019年1月12日间)行胃肠外科手术的90位病人实施探究,应用电脑将其随机划分为对
摘要:有效教学的“有效”主要是指通过教师在一种先进教学理念指导下经过一段时间的教学之后,使学生获得具体的进步或发展。有效教学的“教学”,是指教师引起、维持和促进学生学习的所有行为和策略。虽然数学课程是高中阶段的主课之一,但随着学习难度的加大,有不少学生对高中数学课程产生了畏难情绪,影响了教学质量的提高。对此,教师应采取必要的教学策略,不断激发学生对高中数学课程的学习兴趣,从而提高课堂教学效率。  
目的:研究腹部手术后粘连性肠梗阻护理中实施综合护理干预的效果.方法:依据患者入院就诊时间将我院自2018年9月至2019年9月期间收治64例腹部手术后粘连性肠梗阻患者随机分为
目的:研究分析预见性护理对预防产后尿潴留的影响以及应用方法.方法:随机选取我院2018年5月-2019年5月收治的90例产妇为对象,对其临床资料做回顾性分析.根据采取的护理方式不
MIL-STD-1553B是一种指令/响应型串行多路总线标准,具有可靠性高、实时性好的特点,广泛应用于航空航天领域。随着航天技术的发展,为满足航天任务对有效载荷小型化、模块化的要求
目的:探讨对心脑血管内科患者采用优质护理模式的临床效果.方法:选择我院2019年1月至2019年8月心内科收治患者计216例为研究对象,随机分为常规护理对照组(n=108)与采用优质护
LTE-Advanced系统作为国际电信联盟确立的IMT-Advanced标准之一,采取了增强的MIMO等多种技术,并提出了不同覆盖范围小区混叠的分层异构网络等新的场景,作为传统蜂窝无线覆盖
随着多传感器数据融合技术发展日趋成熟,该项技术已经被广泛应用到各个领域中,如:军事领域和民用领域。时间配准技术作为多传感器进行数据融合前不可或缺的前提步骤,如何更有效
目的:探讨PDCA循环法对支气管肺炎患儿肺功能与护理满意度的影响.方法:随机抽取90例支气管肺炎患儿,抽取时间范围在2017年4月-2018年4月,按照入院时间,分为观察组、对照组,每
目的:分析对脑出血手术患者运用零缺陷护理模式的临床价值.方法:对照组在围手术期内提供常规护理,观察组则在该基础上提供零缺陷护理干预.结果:两组入院时NIHSS评分、SIS310