基于自举学习和多视角学习的跨语言实体对齐技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:madefake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多语言知识图谱的构建和应用,推动了许多人工智能相关的跨语言任务的发展。跨语言实体对齐任务是指在多语言场景下,找到不同语言中的匹配实体对的任务。通过跨语言的实体对齐,可以连接和融合不同语言的知识图谱,形成新的知识,增加知识图谱的信息密度。现有方法主要依赖于少量跨语言链接和三元组结构编码实体。随着互联网的发展、众包技术的成熟,大量知识图谱也为实体提供了丰富的实体描述,给文本信息的编码提供了条件。针对结构编码优化,文本编码的引入,以及对齐数据稀少等问题,本文研究并提出了相应的跨语言实体对齐模型。本文的主要贡献如下:(1)提出了基于TransD模型的自举式跨语言实体对齐模型。利用TransD模型增加实体和关系之间的交互,编码知识图谱中的实体和关系,通过三元组损失优化实体的向量表示。对于训练数据中对齐实体对不足的问题,利用自举法筛选训练中得到的新对齐实体对,扩充训练数据。在数据集DBP15K上证明了本文提出的模型在结构编码上的优势以及自举式扩充训练数据的有效性,并从而提升了跨语言实体对齐效果。(2)提出了使用图卷积网络编码知识图谱多视角信息的跨语言实体对齐模型。根据知识图谱三元组和实体描述文本,用双层图卷积网络分别进行实体结构嵌入和实体文本嵌入,结合两个视角的嵌入表示计算实体对齐。此外,引入机器翻译和长短时记忆网络编码跨语言实体描述,进一步改进跨语言实体对齐表现。本文针对文本嵌入模块进行了消融实验,并通过在数据集DBP15K上与其它跨语言实体对齐模型的比较与分析,证明了本文模型使用图卷积网络编码结构和文本的优越性,以及文本描述编码对于实体对齐任务的有效性。
其他文献
<正>一、关注教学设计,降低固有认知负荷,实施有效教学的实践研究固有认知负荷源于认知任务本身。对学生来说,如果面临学习的内容难度和信息量太大,需要同时处理的过程和反应
期刊
科学技术在不断发展,也带来了教育方式的不断变革,尤其是电子白板在我们的教学中发挥着越来越重要的作用,本人就结合自己的教学经验谈谈如何才能更好地运用电子白板,助推课堂
采用阴离子开环聚合法合成了嵌段共聚物PCL—PEG—PCL(聚己内醋-聚乙二醇-聚己内酯)。用1HNMR和GPC等对产物的分子量和组成进行表征,将其在离子液体中配成胶束,通过透射电镜(TEM)观
当前.有不少小学生一提起写作文就感到头疼。常常是冥思苦想,却仍无从下笔。最终只是寥寥数句,穷于应付。通过多年的教学实践,我认为,作文技巧不可缺少,兴趣更为重要。不能激活学生
混合流水车间(Hybrid Flowshop,HFS)具有多任务,多工序,多并行机,同一工序不同工件加工时间不同等特点。当混合流水车间中存在可重入生产环节时,会导致制造过程更加复杂,生产负荷成倍增加,设备负载不均衡性增大等问题,这极大增加了混合流水车间排产的难度,可重入混合流水车间排产优化问题(Re-entrant Hybrid Flowshop Scheduling Problem,RHFSP)
经研究发现,我国乒乓球运动的中青年参与度比较低,参与者多以少年和中老年为主;俱乐部服务收费情况、场馆开放情况、相关产品的销售情况等都与乒乓球在竞技体育中的地位不符;
公租房是我国住房保障体系的重要组成部分,旨在满足大学毕业生、外来务工人员和城镇户籍居民中低收入阶层的基本住房需求。增加公租房供给数量,能够使住房保障制度的完善,能
世界著名湾区具有开放的经济结构,是世界500强、创新公司、研发资源的专利密集区,是国际竞争力和创新能力的代表,是推动国际经济发展和科学技术变革的先锋。本文围绕厦门港务
多糖具有诸多重要的生物活性,可促进机体免疫力、抗肿瘤、降血糖以及降低血脂等。目前对柚皮和柚囊中功能性多糖的综合利用开发仍显薄弱,国内的研究报道仅限于简单的工艺提取
古典建筑设计理念是建筑学及美学史上的重要财富,其精神要义可以应用到现当代多种包装设计中。本研究以古典建筑设计理念在现当代包装设计中的设计原则为核心,简要阐述了当前