多源人物属性融合方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:crystal19900224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人物知识图谱在智能问答、人物关系分析、搜索引擎等场景得到了极大的应用,覆盖了金融、互联网、医疗、政务等领域。结构化数据诸如维基百科、百度百科及其他行业数据库是构建人物知识图谱的优选数据源。然而与结构化数据相比,互联网还存储了更多的非结构数据源,同样包含丰富的人物属性信息。如何从非结构化数据源中准确提取人物信息用于构建人物知识图谱是当前人物知识图谱构建领域的热点研究问题。为此本文在对现有的相关研究进行深入分析的基础上,提出了基于依存树剪枝的图卷积网络人物属性抽取模型、基于嵌入表达的知识图谱实体对齐模型以及基于属性类型的属性对齐模型,实现了从非结构化数据源中准确提取用户属性并构建知识图谱的过程。具体的研究如下:1)针对现有基于依存树的关系抽取模型存在依存树修剪过度导致关键信息被裁减的问题,本文提出了基于依存树剪枝的图卷积网络关系抽取模型。该模型先以实体和最短依存路径为中心对依存树剪枝后得到剪枝依存树的邻接矩阵,随后将句子的词向量和邻接矩阵作为图卷积网络的输入得到每个词汇的隐式表达,然后采用基于实体类型嵌入和位置的注意力机制得到句子的表达,最后进行关系分类。实验表明了该模型在Sem Eval数据集和人物属性数据集上能够取得良好的效果。本文从剪枝子树延伸和否定词两个角度说明依存树剪枝方法能有效提升关系抽取效果,同时从实体类型统计结果解释了基于实体类型嵌入的注意力机制能有效区分实体类型并替代命名实体识别。2)属性三元组是知识图谱的重要组成,但现在实体对齐方法大多未利用该信息。针对该问题,本文提出了基于嵌入表达的知识图谱实体对齐模型。该模型使用字符嵌入与属性类型嵌入拼接的属性值嵌入引入属性值信息,同时在结构嵌入中使用图注意力网络引入知识图谱的结构信息从而得到增强的实体嵌入。实验表明了该模型在跨语言实体对齐数据集和同语言实体对齐数据集上都有良好的效果。3)针对属性对齐问题,本文提出了基于属性类型的属性对齐方法。该方法从属性名和属性值两个方面计算属性相似度,属性名相似度计算通过增加计算词向量相似度来引入语义信息,属性值相似度根据三种不同的属性类别采用对应的方法计算属性值相似度。实验表明模型在属性对齐方面取得了良好的成绩,精确度达到了98%。通过对比实验发现语义和属性值信息能减少错误的对齐属性对的数量,提升属性对齐的精确度。
其他文献
本文以塔里木盆地柯坪-巴楚地区肖尔布拉克组碳酸盐岩储层为研究对象,通过岩心观察、岩石薄片观察、地球化学分析、模拟实验等工作,较为系统的研究了储层岩石学特征、储集空
引言人民陪审员制度是社会主义民主政治在司法领域的具体体现,其中的事实审与法律审分离机制是《人民陪审员法》的重大亮点。环境污染防治作为《人民法院第五个五年改革纲要
会议
随着我国经济从高速发展阶段步入高质量发展阶段,人们生活水平不断提高的同时,开始追求更高质量的生活服务,有越来越多的人愿意花高价来追求高质量的服务,特别是对提高公共交通出行的高水平、高质量服务有更迫切的需求。在大城市中,以白领为代表的中等收入以上的消费群体,由于在舒适性、便捷性等方面的不足,传统的公共交通已经已不能满足他们的出行需求。作为中等以上收入的人群,他们更加倾向于定制化、个性化的出行方式,更
21世纪以来,中国从具有开放优势、发展潜力的东部地区入手,给予政策优惠和支持,成功实现了经济的快速起飞,但“先富带动后富”的蓝图并不理想。当下,我国东中西部地区经济发展水平差距较大,中西部地区亟需引入较为成熟的产业,来改善这一严峻的不平衡态势。与此同时,东部地区也需要优化产业结构,推动传统产业向外转移,致力于主导创新产业的发展。区域间产业转移是解决这一需求的重要途经,但其往往受到多种因素的制约,如
Spark是基于内存的分布式数据处理框架,在数据处理与分析、机器学习等方面应用广泛,对Spark平台的优化研究已成为当前的研究重点和热点。使用Spark平台进行数据处理虽然可以提高作业执行效率、减少数据传输时间,但是其计算性能容易受到多种因素影响,例如,底层硬件、结构体系、操作系统、应用程序等,从而造成在Spark内存分配中内存利用率低、Spark MLlib中聚类算法的准确率低等问题。因此,基于
习近平主席在2013年10月召开的周边外交工作座谈会上强调,思考周边问题、开展周边外交要有立体、多元、跨越时空的视角。我国周边地区是世界上战略分量最重的地区之一。这里
会议
随着互联网、信息及通信技术的突破性进步和广泛普及,作为制造业活动中不可忽视的一部分——服务要素投入的作用日益凸显,重要性与日俱增,全球制造业呈现出一种向“服务型制造业”转型的趋势。与此同时,中国制造业“大而不强”,出口产品质量较低,为此中国制造业亟需提质升级,获取动态竞争优势。制造业服务化是否会提升中国制造业竞争力?文章以加成率作为衡量制造业竞争力的指标,采用企业面板数据,考察制造业服务化对中国出
社交媒体是拥有众多用户参与的新型在线媒体,近年来以推特为代表的社交媒体网站吸引了数以亿计的用户,现实社会中所发生的重大突发事件在社交媒体中会得到快速的反应与广泛的传播,因此社交媒体中包含着丰富的突发事件的相关信息。社交媒体中的事件检测方法为利用机器学习与自然语言处理等技术,从海量的社交媒体数据中寻找现实生活中所发生的突发事件的方法,有效的事件检测能让人们及时了解社会中所出现的热门事件信息,并帮助政
社交媒体平台拥有海量的用户和信息,每当现实世界有重大事件发生时,这些事件的相关信息都会被传播到社交媒体上,因此对社交媒体事件的属性信息进行挖掘就具有重大价值。社交
城市让生活更美好,而城市中的土地则是经济发展中最基本的要素之一。土地与人们的生活息息相关,而如何实现土地价值最大化是被土地所有者历来关注的焦点问题。自改革开放以来,我国的经济迅猛增长,社会主义市场经济的确立和发展推动了国民生产总值的提高并加速了城市化的进程。为了适应经济发展的需求,我国城市的土地使用经历了一系列的制度变更,从计划到市场,从无偿到有偿,从无限期到有限期。自1987年深圳率先协议出让了