面向经济知识图谱构建中文关系抽取算法的研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：lujundehao

【摘要】

：

【作者】

：

王启杰

【出处】

：

电子科技大学

【发表日期】

：

2020年07期

【关键词】

：

经济领域知识图谱中文关系抽取远程监督自动标注

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息化时代的高速发展,近些年来互联网技术得到了爆炸式的飞速发展,同时互联网在各行各业广泛普及应用,互联网上文本数据呈爆炸式增长。虽然互联网上海量的、多样的数据让人们获取知识变得更加容易,但是其中大量的无用的数据同样让人们高效准确地获取知识变得更加困难。人们迫切希望一种技术能够从海量的数据中抽取有用的知识,当人们需要某种知识时可以直接准确获取,而不需要人工筛选。知识图谱正是在这种情况下诞生的,知识图谱就是覆盖在海量数据上的知识网络结构,它从海量的数据中抽取有用的知识,以实体关系三元组的形式结构化呈现给用户,让人们可以快速准确地获取需要的知识,而实体关系抽取则是构建知识图谱的核心技术。因而,知识图谱和实体关系抽取从提出至今一直是热门研究方向,面向领域知识图谱研究实体关系抽取算法在学术上和工程上都有极大的价值和意义。本文首先介绍了知识图谱和实体关系抽取算法在国内外的发展历程和研究现状,然后分析了知识图谱和实体关系抽取的相关技术,接着在此基础上面向经济领域知识图谱深入研究实体关系抽取算法,并在已有的经典算法模型基础上进行优化改进,提出了本文改进的基于远程监督的实体关系抽取算法,最后将本文改进的算法模型应用于实际的经济领域的具体数据上,成功搭建了经济领域的大数据知识图谱中心系统。整体来讲,本文的具体工作和主要贡献如下所示:(1)针对远程监督实体关系抽取算法的数据自动标注模块存在的准确率和召回率较低的问题,本文在已有算法模型的基础上进行优化,提出了本文的联合关系特征词与句子相似度的自动标注算法。具体来讲,首先,结合依存句法分析改进句子相似度,使得句子相似度主要依赖于和实体对相关的句子成分,强调实体对对句子的约束条件,然后,结合本文改进的句子相似度计算方法和传统的关系特征词匹配方法实现本文的数据自动标注算法,最后,将本文改进的数据自动标注算法与经典的Mintz方法、关系特征词扩展方法和关键词相似度方法进行了对比实验,实验结果证明了本文的数据自动标注算法相较于Mintz方法在准确率上有着极大的提升,相较于关系特征词扩展方法和关键词相似度方法在准确率和召回率上都有较好的提升;(2)针对已有的远程监督关系抽取模型忽略了句子中的关系受实体对约束的问题和经典算法PCNNs-ATT模型面向经济领域具体中文数据存在的中文分词噪声传递、多关系分类以及重复计算这些具体小问题,本文在PCNNs-ATT模型的基础上,设计了基于依存句法分析的拟字符注意力机制,实现了实体对对句子中关系的约束条件,同时引入字词混合向量、多标签问题和关系表示解决了中文分析噪声传递、多关系分类和重复计算的问题,最终提出了本文的PCNNs-ATT-DP模型,实现远程监督关系抽取,最后,将本文改进的PCNNs-ATT-DP模型与经典的Mintz模型、MIML模型、PCNNs模型和PCNNs-ATT模型进行了对比实验,实验结果证明了本文改进的PCNNs-ATT-DP模型在经济领域中文数据的实体关系抽取任务中,相较于其他经典的Mintz模型、MIML模型、PCNNs模型以及PCNNs-ATT模型,在准确率和召回率上都有良好的提升,同时,在这几种经典远程监督关系抽取算法中取得了最高的F值;(3)在本文第三章改进的经济领域数据自动标注算法和第四章改进的远程监督关系抽取模型PCNNs-ATT-DP模型的基础上,本文还面向中文经济领域的具体数据设计并实现了大数据知识图谱中心系统,实现了本文研究算法的应用。

其他文献

曲美他嗪联合芪苈强心胶囊对慢性心力衰竭患者脑钠肽的影响

目的探讨曲美他嗪(TMZ)联合芪苈强心胶囊对慢性心力衰竭患者脑钠肽及心功能的影响。方法105例慢性心力衰竭患者。随机分为观察组55和对照组50例。对照组给予常规治疗,观察组

期刊

曲美他嗪芪苈强心胶囊脑钠肽慢性心力衰竭左室射血分数

规范水情预警促进人水和谐

通过分析水情预警工作在构建和谐社会当中的重要性，提出从思想、机制、技术、方式、手段等5个方面的创新来规范水情预警工作，以适应人水和谐、社会和谐的新常态，体现水文的行业

期刊

水情预警水情产品服务创新人水和谐Water regimen forecast water regimen product service innova

宽输入电压范围的LLC谐振变换器的设计与实现

在光伏、风电以及储能设备与电动汽车充电桩等电力变换系统中,经常需要有源功率变换器能够在宽输入电压范围下工作,然而传统的LLC谐振变换器因为自身的增益特性局限等因素导致其难以适用于宽输入电压范围的应用场合,因此研究适应宽输入电压范围的LLC谐振变换器及其控制策略具有重要的现实意义与工程价值。为解决适应宽输入电压范围的问题,许多文献对传统LLC谐振变换器从电路结构到控制策略进行了研究,有的通过多级变换

学位

宽输入电压范围LLC谐振变换器混合控制策略拓扑切换

教学反思，如何思？

教学反思是教师在课堂教学之后，以文字的形式对自己的课堂教学活动过程的一种记录方式。这种记录，并非“每见”必记、“所做”必录，而是建立在对自己的教学行为进行考察、反思的

期刊

教学反思课堂教学过程教学实践活动教学行为记录方式活动过程教学效果教学情况

“以文化人”视域下高校大学生社会主义核心价值观培育研究

文化是一个国家、一个民族发展的深层次力量。文化总是通过器物、制度、行为活动、风气氛围等各种载体或多样化的形式外显出来,但其灵魂与核心始终是处于最深层的价值观念。文化的存在形式与文化的内核即价值观之间的关系决定了社会主义核心价值观培育离不开文化作为支撑。文化是社会主义核心价值观培育的深层土壤、重要载体,“以文化人”是社会主义核心价值观培育的重要方法。文化存在的多样性决定了“以文化人”的现实空间。如何

学位

以文化人高校大学生社会主义核心价值观培育

猪流行性腹泻病毒细胞培养遗传稳定性及黏膜佐剂的筛选

猪流行性腹泻病毒(Porcine epidemic diarrhea virus,PEDV)是一种高度传染性的腹泻病毒。本研究主要是将本实验室分离的PEDV MS,SH变异毒株在Vero细胞上传代,通过比较细胞病

学位

PEDV疫苗黏膜佐剂

PPP融资在我国医疗卫生行业中的应用研究

到目前为止,“看病难,看病贵”已成为全国普遍存在的一个热点问题。医疗卫生服务的水平的高低不仅对人们的生活质量产生影响,还关系到当今社会的稳定与发展。虽然近年来政府

学位

PPP融资模式医疗卫生公私合作社会资本公立医院

浅议企业税收筹划方法

一、税收筹划的概念及发展现状税收筹划又称节税,是指企业在符合税法要求、完全不违背立法精神的前提下,当存在两种或两种以上的纳税方案时进行优化选择,缴纳最少的税款,以达

期刊

税收筹划方法低税环境纳税人成本调整法加速折旧法先进先出法税收优惠政策纳税方案会计处理后进先出法

财务风险、高管团队特征与研发投入

近年来,我国把创新摆在十分重要的战略地位,企业作为市场经济的主体,更是国家创新体系中的关键环节。在我国多层次资本市场体系中,新三板市场经过一段时间的火爆之后,弊端也逐渐显露,企业转板上市现象愈加频繁,研发投入作为企业创新和发展能力的主要体现,也是新三板企业转板上市的考查因素之一。根据资本结构理论、高层梯队理论等基础理论,可知企业的财务风险和高管团队都会对研发投资决策产生不同程度的影响。因此,本文结

学位

创新能力研发投入财务风险高管团队特征

自我超越价值观对绿色购买意向的影响机制研究

随着生态文明的不断推进,公众对环保问题的关注度也在日益提升。但消费者对绿色产品购买的积极性不高,仍处于等待状态,这一现象被称为“消费者不作为”。针对这一现象,如何引导公众实现绿色消费的生活方式就成为一个亟待解决的难题。而要解决这一难题,关键在于探明绿色购买意向的关键影响因素及其作用机制。有研究发现,无论其他因素如何作为指导和激励因素,它们最终都根植于人们所拥有的核心信念,而价值观恰是引导个体采取一

学位

绿色购买自我超越价值观个体规范公共媒体影响

面向经济知识图谱构建中文关系抽取算法的研究与应用

与本文相关的学术论文