跨境民族文化领域实体及实体关系抽取方法研究

来源 :杨振平 | 被引量 : 0次 | 上传用户:ericwu8756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于社会历史的发展,源于同一族系下的民族成员生活在不同国家并形成了跨境民族,这些民族之间在文学艺术、节庆习俗等传统文化习俗上基本相同。随着跨境民族之间的友好交流,互联网上出现许多跨境民族文化领域数据,利用深度学习技术从文本中抽取领域实体信息和实体对之间的关系对于推动跨境民族文化领域研究工作具有重要的价值。采用当前主流的实体识别和实体关系抽取方法抽取跨境民族文化领域信息时还存在以下问题:缺乏跨境民族文化领域实体识别和实体关系抽取训练数据集,该领域文本中存在大量的领域实体和组合实体造成实体边界模糊,跨境民族文化领域中存在实体关系重叠以及领域词语切分不准确的问题。针对以上问题,论文主要完成了以下研究:(1)跨境民族文化实体及实体关系抽取语料库构建:通过分析云南边疆地区所存在的跨境民族相关数据,选取境内的傣族、彝族等民族和境外相对应的泰族、掸族、佬族、倮倮族民族作为主要的跨境民族,详细地介绍了跨境民族文化领域中实体和关系的特点,通过爬虫技术获取了互联网上的相关数据,构建了领域词汇5千个、实体识别语料1万5千句以及实体关系抽取语料1万8千句为后续研究提供领域特点分析和数据支撑。(2)基于词集合注意力的跨境民族文化实体识别方法:在跨境民族文化领域文本中存在大量词边界模糊的领域实体和由多个词语构成的实体,使用当前主流的实体识别方法会面临领域实体边界模糊,造成实体识别错误。为了解决所存在的问题,提出基于词集合注意力的跨境民族文化实体识别方法,通过融入词集合信息缓解跨境民族文化领域中存在领域实体边界模糊的问题。根据(1)中构建的跨境民族文化领域词典训练语料得到领域词向量,通过词集合匹配方法获取词集合信息,利用词集合注意力机制对词集合信息进行权重分配,以此将词集合信息融入到预训练语言模型的字符表征中,通过Bi-GRU和自注意力机制进行向量编码并训练实体识别模型,最后,实验表明提出方法F1值达到了94.71%。(3)基于多层指针标注的跨境民族文化实体关系抽取方法:现有的实体关系抽取模型在领域信息表示缺失的情况下,模型对底层领域实体的标注能力差,使得模型抽取出较多的错误实体关系,跨境民族文化文本中实体对密度分布高,使得文本中存在较多的重叠实体关系三元组,针对这些问题提出基于多层指针标注的跨境民族文化实体关系抽取方法,采用融入领域词典增强领域信息表示并利用卷积神经网络提取输入文本中的领域特征,将获取的特征表示融入到字符特征表示中增强上下文领域信息表示;采用Bi-LSTM提取进一步提取上下文语义信息,通过多层指针标注头实体和关系条件下的尾实体解决实体关系重叠问题,实验表明提出方法相比其他模型有一定的提升,F1值达到了82.50%。(4)跨境民族文化实体及实体关系抽取原型系统:基于上述相关理论研究,采用Django框架开发了该原型系统并介绍了原型系统的环境配置、模型搭建、模型训练过程以及系统功能,通过Sanic技术框架将模型转换为接口整合到跨境民族文化实体及实体关系抽取原型系统中。该系统的模块包括了跨境民族文化实体识别模块、跨境民族文化实体关系抽取模块等。
其他文献
目的:探究组长责任制的层级管理模式在儿科中医护理管理中的应用成效。方法:医院儿科病区于2022年3月采用组长责任制的层级管理模式,将2021年9月—2022年2月的60例患者设为实施前,将2022年3—8月的60例患者设为实施后,比较实施前后护士的中医护理能力评分、护理管理质量评分及患儿家属对护理服务的满意度。结果:实施后护士岗位能力、辨证施护能力、沟通交流能力、病历书写能力评分均显著高于实施前,
期刊
期刊
为解决大规模、存在可变障碍物的复杂变电站环境下的自主导航问题,设计一个变电站运动规划框架,包括建立变电站地图、动态避障与局部路径规划、可变障碍物比对及判断,并提出一种基于层次搜索空间尺度的HHA*路径规划方法,能够有效地生成平滑、安全的路径。与现有方法相比:(1)提出一种新的HHA*方法,首先将变电站空间划分为一个粗尺度,建立常规路径以生成全局目标,然后在精细尺度搜索空间中采用新的启发式函数,以提
期刊
目的 探讨集束化营养干预对胃癌根治术后患者营养指标、免疫功能及生活质量的影响。方法 采用随机数字表法将100例胃癌根治术患者分为集束化组和常规组,每组50例,集束化组患者术后给予集束化营养干预,常规组患者术后给予常规营养指导。集束化组中途退出研究2例,常规组中途退出研究4例。比较干预前后两组患者的营养指标[血清白蛋白(ALB)、前白蛋白(PA)、转铁蛋白(TRF)、血红蛋白(Hb)]、免疫球蛋白[
期刊
<正>我们构建了以学校为主导,企业和博物馆为辅的融合式一体化的整合协同教育机制,为学校教育和社会教育一体化建设作出前瞻和有效的探索;以学生成长需求为目标,重视学生学习经历,关注学生实践体验,形成校内课堂与社会实践活动相融合的校企馆整合协同的课程建设实施方式。随着郊区经济不断发展及《上海市初中学生综合素质评价实施办法》、“双减”等政策的落地,郊区初中学生走出校园,开展社会实践、提升核心素养成为学校、
期刊
随着互联网的迅速发展,对相同事件下汉越社交媒体数据中的关注对象进行识别、对齐并针对相应对象进行情感分析,能够把握两国舆情动态从而进一步开展关于热点事件分析、监测和预警任务。面向社交媒体文本的汉越跨语言对象级情感分析,存在越南语标注数据稀缺,观点对象难以表征,情感表征映射难以对齐,评论特征学习不充分等研究问题,值得深入研究。本文研究面向社交媒体文本的汉越跨语言对象级情感分析方法,主要从以下几个方面开
学位
作为数字经济时代的代表技术,工业机器人对制造业的渗透程度逐渐加强,对就业的影响也越来越凸显。当下,在新冠疫情笼罩全球,稳定就业对于促进我国经济发展,实现“十四五”目标有着重要意义。本文在工业机器人对就业量、就业结构、劳动报酬和就业质量研究的基础上,梳理工业机器人影响就业质量的作用机制,工业机器人的发展现状和就业质量的现状。其次,立足宏观层面,围绕就业环境、就业机会、劳动报酬和就业结构四个维度,选取
学位
游戏化学习在激发学习者动机、改善学业情绪等方面存在独特优势,将游戏化学习与在线课程资源的“学”“测”两环节有机整合,有望提升在线课程资源的质量,进一步推动我国的教育数字化转型。鉴于此,研究构建了“学测一体”游戏化设计促进在线学习的理论模型,并借助眼动仪、脑波仪、问卷采集了120名被试的认知行为、学习体验与态度以及学习效果数据,深入分析无游戏化设计、“学”“测”“学测一体”的游戏化设计对在线学习的影
期刊
<正>2022年6月是第21个全国“安全生产月”。自6月1日起,根据国务院安委会办公室、应急管理部统一部署要求,各地区、各有关部门和单位深入学习贯彻习近平总书记关于安全生产重要论述,全面贯彻落实新修订《安全生产法》,推动落实国务院安委会安全生产十五条措施,推动“第一责任人”守法履责,围绕“遵守安全生产法当好第一责任人”主题,在全社会形成“关爱生命关注安全”的浓厚宣传氛围,为党的二十大胜利召开营造安
期刊
随着互联网的快速发展,案件舆情信息的传播也变得空前迅速,如何从大量案件舆情文本中提取重要的信息生成简短摘要,对于用户快速了解、及时处置相关舆情有着重要的意义。然而在案件舆情摘要数据集中存在主题偏差和信息冗余的问题,要生成可读性高、冗余性低的摘要还很困难。本文基于案件要素的案件舆情摘要方法进行研究,通过案件要素这一特定领域知识,构建要素关系图,提升案件舆情文本摘要的质量。本文主要贡献和研究点如下:(
学位