中韩双语知识图谱实体对齐方法的研究与应用

来源 :延边大学 | 被引量 : 0次 | 上传用户:lmx1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在全球化的浪潮下,如何使用人工智能技术更好地克服不同语言使用者之间沟通和交流的障碍,成为自然语言处理领域重要的研究课题之一。知识图谱除了被用于优化搜索引擎的搜索表现,现在已经被广泛的应用在生物、医疗、金融等各种专业领域。得益于以维基百科为主的多语言在线百科的发展,研究人员整理出了大量结构化的多语言对齐语料。同时,以Trans E为代表的基于嵌入的知识图谱表示学习技术的发展,使得研究人员通过设计一个模型来实现自动对齐不同语言实体的想法变成可能。然而,当前跨语言对齐方法存在一些不足:首先,基于嵌入表示学习算法的对齐模型对数据集的规模有很高的要求,数据集的规模直接影响对齐模型的准确率;其次,如果采用图卷积神经网络和表示学习模型相结合的方法来设计实体对齐模型,在面对异构的不同语言知识图谱时,容易产生欠拟合的问题。本文在解决上述问题的基础上,针对中韩知识图谱语料提出了跨语言实体对齐模型,具体研究过程如下:首先,采用爬虫技术从互联网收集,整理了八万多条结构化的中韩双语对齐数据集。中韩语言研究是自然语言处理和语言学研究领域的重要研究课题,该数据集可以填补多语言知识图谱领域在中韩双语研究方向的空白,为相关知识图谱上下游研究工作的开展提供了重要的基础性数据。其次,提出并实现了一种图注意力网络和Trans H相结合的实体对齐模型。该模型有效缓解了数据集规模小和知识图谱异构的问题给对齐模型带来的负面影响,提高了对齐模型的准确率。在韩语对齐中文时,Hits@1为48.76%,Hits@5为79.51%,Hits@10为90.99%;在中文对齐韩语时,Hits@1为48.55%,Hits@5为78.77%,Hits@10为90.96%。最后,设计并实现了跨语言知识查询模块。该模块利用对齐模型在相同语义的双语实体之间建立关系,构建双语对齐知识图谱,并采用Popoto.js和Html进行前端设计,Flask框架进行后端数据交互,实现了跨语言知识查询的核心功能。
其他文献
《普通高中数学课程标准(2017年版2020年修订)》中指出“数学建模是对现实问题进行数学抽象,用数学语言表达问题、用数学方法构建模型解决问题的素养”,课程标准将数学建模划分为数学学科核心素养之一。数学建模可以培养学生的应用意识、数学思维,在建立模型的过程中让学生体会到学习数学的意义,了解知识的现实应用。课程标准中对于数学建模核心素养分为三个水平,同时也概括了数学建模核心素养的课程目标,在2019
序列密码的一个重要且基本的特性就是安全性,通常采用伪随机序列作为密钥流序列.作为密钥流的生成机制,伪随机序列生成器的性质将决定密钥流序列的性质.非线性反馈移位寄存器借助其在硬件和软件实现上的高效性,被广泛地应用在流密码的设计中.在过去的几十年里,许多密码将移位寄存器作为驱动结构,例如eSTREAM的最终入围作品Trivium,Mickey和Grain等.然而,由于复杂性和缺乏有效的工具,移位寄存器
本试验在大豆9年连作地设氮磷、氮钾、磷钾、氮磷钾、不施肥不同组合,栽培吉育47品种,分析了不同施肥组合对大豆连作地土壤养分、农艺性状和土壤中细菌、真菌群落的影响。结论如下:⑴施氮、磷、钾肥可使土壤p H值降低,Ec值提高,施氮肥直接增加铵态氮、硝态氮含量,施磷肥提高速效磷含量,施钾肥提高速效钾含量。氮磷钾组合施肥使土壤p H值低,Ec值最高,有效补充土壤中的铵态氮、硝态氮、速效磷以及速效钾含量。氮
糯米(Oryza sativa L.Var.),又称江米,为禾本科植物稻(糯稻)的去壳种仁,富含蛋白质、糖类、脂肪、矿物元素、维生素及氨基酸等营养成分,具有补虚、补血、健脾暖胃的功效,常用于制作发酵酒。清酒是由大米经蒸煮、加曲、糖化、发酵、过滤、脱色、煎酒、贮存等工序制作而成,而糯米清酒是以糯米为原料,采用酵母发酵工艺制作而成,具有口感柔和,酸甜适宜等优点。由于糯米成本高于大米,目前对于糯米清酒的
我国是食用菌生产大国,为合理利用废弃菌渣资源,本试验利用黑木耳菌渣辅以鹿粪对农田栽培人参土壤进行改良。对人参的生长发育、土壤理化性质及人参的产量和品质进行分析,探究菌渣与有机肥配施对农田土壤的改良状况及人参产量和品质的影响,从而找到菌渣和有机肥料的最佳配比和施用量,综合评价人参生长状况和品质。主要结果如下:(1)菌渣和鹿粪的施入可以有效地提高了土壤p H值和电导率值,降低土壤容重,增加土壤孔隙度,
具有化学式MX3(M=Co、Rh、Ir,X=P、Sb、As)的方钴矿,由于其具有良好的热电性能而受到广泛关注。本文运用基于密度泛函理论方法和粒子群晶体结构搜索技术,在0-100 GPa范围内对CoP3进行结构预测。研究预测得出高压新相的物理性质。研究表明在高压下,CoP3晶体结构发生了三次结构相变,为一级相变。其相变序列为Im(?)(α相)-→Pnma(β相)-→C2/c(γ相)-→C2/m(δ相
植被物候作为气候与自然环境变化的重要指示性指标,在全球气候变化的背景下,其变化较为突出。目前已有相关研究表明,不同植被类型物候期的时空变化有较大的差异,其对气候变化的响应也成为目前关注的重点问题。在过去的长时间段内,全球温度升高已成为事实,但近年来有研究表明,由于1997-1998年的厄尔尼诺现象,全球地表温度由快速增温期进入“间断”期。为研究在这种气候变化的条件下东北亚地区不同植被类型的物候期时
随着LED灯具的发展,“绿色、高效”成为LED产品的首要的技术指标,利用现代电子技术设计实现更高效、经济的LED产品已成为必然发展趋势。现有的多层式信号灯,结构过于复杂,组装时需手工焊点过多,组装过程繁琐,人工成本过高且每层LED灯组板结构不同,组装时需要多种PCB板,造成库存积压、生产效率低等问题。多层式信号灯在工作时为了得到良好的驱动效果在驱动小功率信号灯时用一个电压源经过阻值较大的限流电阻后
随着近年来电子电力技术和智能控制策略的发展,DC-DC变换器已成为开关电源的重要组成部分,主要用于数据通讯、远程控制系统、光伏发电系统、绿色能源等各个领域。DC-DC变换器是非线性时变系统,这类系统在实际运行过程中容易产生边界碰撞分岔、倍周期分岔等非线性现象,对变换器的性能和工作质量产生影响。现在大部分的DC-DC变换器使用的是单闭环控制方法。单环控制系统受到干扰时,输出电压会出现波动情况,从而影
贯叶连翘(Hypericum perforatum L.)是一种具有多种药理活性的多年生草本植物,但近年来其野生资源逐年减少,人工栽培产量和质量也难以满足产品生产的需求。因此,不定根培养就成为获取贯叶连翘新植物材料的重要途径。目前,贯叶连翘不定根生物反应器培养体系已建立,但不定根的药理活性尚不清楚,这影响着不定根的在产品生产中的应用。因此,本研究以生物反应器培养的贯叶连翘不定根为材料,利用闪式提取