基于多粒度融合的朝鲜语命名实体识别方法的研究与应用

来源 :延边大学 | 被引量 : 0次 | 上传用户:shirley09liu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理的重要研究课题之一,它不仅能够让人们快速获取文章中的关键信息,还能为众多下游任务提供基础性实体信息。中国朝鲜语信息处理的研究尚处于发展初期,而命名实体识别这一基础性任务的研究能为后续更为深入的自然语言处理任务奠定基础,因此朝鲜语命名实体识别研究对朝鲜语信息处理具有重要的学术意义和研究价值。针对朝鲜语独有的语言特征,本学位论文采用朝鲜语多粒度融合表征和朝鲜语预训练语言模型结合的方法,提高朝鲜语命名实体识别的效果,并将命名实体识别模型应用于基于命名实体识别的朝鲜语全文检索原型系统中。首先,提出了一种朝鲜语语言处理单位的多粒度融合方法,以解决命名实体边界划定不准确的问题。朝鲜语是黏着语,词汇含有后缀词尾,加之语言处理单位具有不同粒度,导致命名实体的边界不清。本文在传统的向量拼接融合方式的基础上,对粒度间的差异与联系进行融合表示,并采用加权平均方式控制融合权重,最终达到粒度间深度融合的效果。其次,采用预训练语言模型提取文本特征,提高了朝鲜语文本表征能力。本文采用KLUE-BERT和fast Text预训练语言模型对朝鲜语文本不同粒度的语言单位进行嵌入表示,并采用基于Transformer的命名实体识别模型TENER(Transformer Encoder for Name Entity Recognition)进行特征提取。该方法通过对朝鲜语文本的形态素粒度进行嵌入提高了基础粒度层次的特征表征能力;同时对音节和音素粒度进行编码,提升了细粒度层次的文本表征能力,取得了较传统的RNN(Recurrent Neural Network)和CNN(Convolution Neural Network)更好的特征提取效果。最后,利用训练好的命名实体识别模型,设计并实现了基于实体识别的朝鲜语全文检索原型系统。在系统设计中,为衡量两个文本间的相关程度,本文提出了一种基于实体集合的文本表示方法,使用命名实体识别的结果构建文本表示,并通过计算两个实体集合间的Ochiai系数确定文本间的相关度,最后按相关度系数排序获得文本检索结果。实验结果表明,本文提出的朝鲜语命名实体识别方法与其他方法相比在性能上均有提升。其中在KLUE-NER数据集中,本文提出方法与基于BERT预训练模型的方法对比,F1值提升4.22%;在Klpexpo2016数据集中,与当前效果最好的基于Bi-LSTM(Bi-directional Long Short-Term Memory)+CRF(Conditional Random Fields)的方法对比,F1值提升3.18%。测试结果表明,所实现的朝鲜语全文检索系统具备了面向实体的良好检索性能。
其他文献
现如今深度学习技术已经应用到了各个领域中,在计算机视觉领域中已经占据了主导地位。图像识别是计算机视觉领域的基础任务,大多数视觉任务都需要根据图像识别的结果来进行下一步操作,所以对图像识别的研究尤为重要。近几年我国进入大数据时代,随时随地都会产生海量的图像数据,如果可以得到充分利用,将大大推动基于图像识别的深度学习技术的发展。但是,现在的深度学习技术主要使用标记数据进行训练,除了少量人工标记的数据外
学位
问题式教学是用“问题”整合教学内容,以问题为纽带,引导学生运用地理思维方式进行情境问题探究解决的一种教学方式。本文以“交通运输方式和布局变化的影响”为例,围绕创设问题情境、设计问题链、迁移运用等内容,探寻更好地培养学生地理学科核心素养的路径。
期刊
朝鲜语古籍是记录朝鲜族数千年发展历程中有关历史、政治、文化等信息的重要载体。先进的古籍文字检测方法和技术可以促进朝鲜语古籍文本图像的再生性修复、文字识别等古籍数字化相关环节。目前国内有关汉语、藏语、蒙古语以及彝语等古籍文字检测和数字化工作成果显著,但是朝鲜语古籍的数字化进程严重滞后,有关朝鲜语古籍文字检测方法的研究文献非常少。朝鲜语古籍文字检测面临着各种挑战,一是混排的汉语和朝鲜语的字体形状、书写
学位
随着科技的快速发展,用电量的增加,具有高载流能力、低损耗、体积小的超导电缆就显得尤为重要,但交流损耗会导致超导电缆中产生热量进而增加制冷成本,导致超导电缆无法大规模使用。因此如何降低交流损耗,在超导电缆的研究中一直是一个重要问题。超导线材是制作电缆的关键材料,高温超导电缆的高温超导带一般是由超导线材围绕在支撑柱上组成的圆筒形结构。因此超导线材的结构也会影响到超导电缆的磁场分布,进而影响到交流损耗。
学位
随着社会经济的发展,人们的生活水平在不断地提升,与此同时,也产生了很多不良的生活习惯,导致心血管病发病率持续增高。通过心音听诊可以及时发现心血管疾病患者,提高心血管疾病的治愈率。而我国医疗资源相对短缺且分布不均衡,部分地区难以实现医生与患者一对一开展心音听诊的需求,并且准确的心音听诊需要医生有着较深的知识储备和听诊经验,听诊结果还会受到听诊器和医生主观判断的影响,因此使用计算机辅助医生进行心音听诊
学位
电感是电路中实现振荡、滤波、延迟、耦合等功能的重要电子元件,在电子电路中起着非常重要的作用,因此电感参数的测量技术一直被广泛的关注。现有的电感测量仪更注重对电感值和等效内阻的测量,而在实际电子产品设计中往往要考虑电感的耐压值、饱和电流,以及电感是否发生虚焊和及匝间短路等异常情况。鉴于现有电感测量仪存在的上述问题,提出了一种企业使用环境条件下的电感参数特性检测仪设计方案。首先提出了一种电感测量方法,
学位
目的:通过采用刚地弓形虫(简称弓形虫)RH株速殖子,体内感染雌性BALB/c小鼠和体外感染小鼠小胶质细胞系(BV2细胞),建立小鼠急性弓形虫感染和小胶质细胞活化模型及BV2细胞/Neuro-2a(N2a)神经瘤母细胞共培养体系,探究舍曲林对弓形虫感染激活小胶质细胞活化诱导神经元损伤的干预作用及其机制,为弓形虫中枢神经系统疾病的治疗提供科学依据。方法:1)体内实验:选用雌性BALB/c小鼠作为研究对
学位
时间序列是按照时间顺序产生和记录的一组序列数据,在任何时间、任何地点,人类活动和自然界中均在不断产生时间序列,这使得时间序列分析成为了数据挖掘领域中一项重要的研究内容。深度学习目前已成为时间序列分析中广泛使用的方法,并在多种任务上产生了较好的表现。但由于深度学习是一种数据驱动的方法,时间序列数据集中广泛存在的类别间不平衡现象和有标签数据的缺乏限制了深度学习模型的性能。本学位论文针对以上问题,采用自
学位
土地利用变化是影响生态系统功能和生态过程变化的主要驱动因子,其变化显著影响了区域水生态系统的供给和调节能力。然而,土地利用变化与多种水生态系统服务之间的关系及动态变化机制尚未被很好的揭示,这在一定程度上限制了区域水生态系统服务的协调和健康发展。乌苏里江流域地处中国和俄罗斯交界地区,是丹顶鹤等世界濒危迁徙鸟类的中间停歇地和东北虎、东北豹等世界濒危野生动物分布区,水生态系统功能的演变对东北亚地区的生态
学位
目的:本课题旨在应用离子对技术制备一种工艺简单,体内外透过性良好的高乌甲素(Lappaconitine,LA)长效压敏胶分散型贴剂。方法:本课题通过有机溶媒挥散法制备高乌甲素压敏胶分散型贴剂。首先应用卧式单室扩散池,雄性Wistar大鼠离体的腹部皮肤作为体外透皮实验的屏障,以单因素考察法通过体外皮肤渗透实验筛选了压敏胶(PSA)和载药量,并采用了离子对技术来进一步改善高乌甲素经皮透过性。选择了六种
学位