基于百科的汉越双语知识图谱构建研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:zanyunfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“丝绸之路经济带”倡议的提出使中越两国在商业、政治等领域之间的联系日渐密切。全面的了解越南方面的知识,构建汉越共享知识库对中越双边合作能够起到巨大推动作用。然而,互联网庞大且不规范的知识,同时小语种知识如越南语等的人工标注成本较高导致了始终没有汉越公共知识库产生。鉴于百科知识的结构明确,内容丰富,本文研究基于百科的汉越跨语言知识图谱的构建与研究方法,目的是构建统一的分类体系,进而将汉语和越南语知识链接并互相补全,进一步构建出汉越知识共享的知识库,为许多在线应用如汉越信息检索、机器翻译等提供强力支持。本文主要完成了以下研究工作:(1)跨语言知识图谱构架多利用维基百科,但其中文实体较少,构建大规模以中文为核心的跨语言知识图谱比较困难。如何利用百度百科等现有的大规模中文百科知识库来辅助构建跨语言知识图谱是亟待解决的问题。然而维基百科和百度百科属于不同的分类体系,增加了跨百科检索的范围和难度。针对百度百科和维基百科公共分类体系的构建问题,提出融合维基知识的变分半监督百度百科分类,实现了两种百科分类体系的迁移和统一。由于百科词条正文结构复杂且过长,而词条摘要相比于正文结构简洁且同样涵盖词条丰富的信息量。因此,选用百科词条摘要进行百科的分类。由于百科词条摘要的结构和重复词大多相似但文本长短不一。因此,首先融合了深度语义特征和统计特征对摘要进行表征。通过词嵌入和注意力机制提取语义特征,同时通过词袋模型提取统计特征,解决了词条摘要结构相似和长短不一的问题。受限于百科知识的数据量庞大和人工标注的成本过高,并且采用无监督方法进行分类精度过低,我们利用少量有标注维基百科知识对百度百科海量数据进行半监督分类。实验表明,该方法准确实现了百度百科分类索引体系的建立,统一了维基和百度百科的分类体系。(2)跨语言知识链接是在不同语言的实体或文章之间创建链接的任务,是构建跨语言知识图谱的基础。当前跨语言链接任务多是基于维基百科,但其中小语种的跨语言链接,特别是现有的汉越跨语言链接数量较少,对于构建汉越跨语言知识图谱造成了困难。针对现有汉越双语跨语言链接不足的问题,提出了基于百科的汉越双语知识链接,实现了汉越双语百科知识的对齐和补全,将维基百科缺失数据通过百度百科海量数据补齐。使用分类任务中训练得到的向量,再结合维基现有汉越对应词条的标题和摘要,进行跨百科的对应词条检索,使用基于学习的方法来链接不同语言中的等价实体,并基于维基中的链接结构定义了一些特征来评估两个不同实体之间的相似性。实验表明,该方法可以有效地提升汉越跨语言知识对齐的准确性。(3)搭建汉越双语知识图谱检索原型系统。该系统从百科网站平台收集文本,并将本文提出的半监督分类模型和知识链接模型进行集成,自动分析数据,构建知识图谱,最后将汉越知识的同语言相关信息、跨语言相同词条信息等以界面化的形式展示给用户。
其他文献
胰腺癌(胰腺导管腺癌)恶性程度高、预后差,其中约40%为局部进展期胰腺癌(locally advanced pancreatic cancer,LAPC)。通常LAPC定义为肿瘤无远处转移,但侵犯邻近的动脉>180°或侵犯静脉造成其不可重建[1-3]。LAPC的主要治疗手段是化疗,部分化疗联合放疗,但疗效欠佳[4-5]。近年来,纳米刀消融在LAPC治疗中取得了较好的疗效,但纳米刀消融时消融针
[目的]了解社会大众对“互联网+护理服务”的需求和对护士能力的期望,调查护理管理者和护士对“互联网+护理服务”的态度和培训需求,构建“互联网+护理服务”护士培训指标体系,为“互联网+护理服务”护士规范化培训、护理人力合理调配、护理安全保障提供依据。[方法]1.以问卷星的形式,采用分层抽样调查法,调查江苏省13个市的社会大众,采用自制的“互联网+护理服务”社会需求调查问卷,了解社会大众对“互联网+护
学位
[目 的]构建并持续完善基于校-院合作的《护理心理学》混合式教学模式。[方 法]本研究分四阶段进行,即现状调查阶段、行动准备阶段、行动阶段、反思总结阶段。1.现状调查阶段应用文献回顾法、参与式观察法、团体访谈法(资料分析用Colaizi的描述性现象学七步分析法)、自主学习能力量表(Self-Directed Learning,SDL)对已完整参与《护理心理学》课程学习的2016级本科护生教学现状及
随着科技的日益发展,雷达的作用也不再仅仅局限于战争中的侦察作用,越来越多的场景中出现了雷达的身影。地面侦测雷达又可被称为地面活动目标侦测雷达、地面监视雷达。该类型雷达是一种针对地面目标监视预警而设计的雷达,其主要监控目标为行人与车辆。这种雷达拥有着隐蔽性好,实时性强,全天候全天时监控等特点。现如今在边境预警,重要场合安防等领域具有着重要的应用前景。本文以某低成本便携式地面活动目标侦测雷达为项目背景
本文讨论了加权Sobolev空间Hpn在空间Ls,r中的嵌入问题,其中Hpn中的权函数是某一个微分算子的系数,Ls,r是以r(x)为权函数的Ls空间,通过二次型比较的方法和不等式估计,给出了权函数需要满足的一些条件以确保Hpn到Ls,r的嵌入是连续的和紧的。然后令p=s=2,根据嵌入算子的紧性与自共轭算子谱的离散性的关系,得到了一类2n阶微分算子谱离散的一些判别准则。
贝塞尔光束于1987年提出,由于其具有无衍射和自恢复特性而成为研究热点,目前已应用于激光加工、光镊、光通信等领域。其中贝塞尔光束质量与“无衍射”长度是影响应用的重要因素。在众多光束整形技术中,基于自适应光学的整形技术不仅能够实现不同参数的贝塞尔光束整形,还能够校正光束系统中由周围环境与光学元件带来的像差,从而保证光束整形后的贝塞尔光质量。变形镜作为自适应光学中的光束整形器件,具有控制灵活,光能转换
多媒体是计算机支持下的多种媒体形式的交互,能够比较完整地描述空间知识及其关联特性,使人对地理实体的认识更加形象、生动、全面。本文针对黄河流域的地理环境特点,结合多媒体技术、可视化技术的发展及其在制图领域中的应用,依据地理信息系统的原理和方法对黄河流域多媒体电子地图的设计和实践进行了重点研究。
自检察公益诉讼全面实施以来,公益诉讼案件量急剧上升,其中行政公益案件量占较大比例。诉前程序作为行政公益诉讼的核心环节,在发挥法律监督职能作用、维护公共利益上显示出了独特的优势,检察建议采纳率高、行政机关整改回复率高等更是彰显了诉前程序的价值。但实践中,有关行政机关的履职规定不合理、检察建议的运行质量不高、调查核实权行使效果不佳、诉前程序与诉讼程序的衔接机制不完善等问题又在时刻提醒着我们诉前程序还未
冰川残留的遗迹主要是指在冰川的发展和消亡过程中,直接形成的一系列堆积物和侵蚀地貌。古冰川残留遗迹的确证及其研究,对于深入分析我国古冰川的活动状况及古气候变迁规律具有十分重要的科学意义。梁王山位于云南省昆明市东南部,地理坐标N24°46′06.3″,E102°55′08.2″,海拔最高2820m,被滇池、抚仙湖和阳宗海三大高原湖泊所环绕。本文通过对梁王山地区的侵蚀地貌特征、混杂堆积物中石英砂扫描电镜