面向特定领域的联合关系抽取模型与应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yangqixun123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取技术可以从非结构化文本中抽取出结构化信息,是构建信息知识库最重要的环节之一。中文语料数据来源多种多样,关系事实交错复杂,且由于某些领域的数据敏感性,领域内缺少大规模公开数据集,给关系抽取提出了新的挑战。因此,以某领域为例展开了关系抽取模型的研究与应用。设计了一种联合关系抽取模型。在语义表征方面,针对领域内关系抽取任务的特点,通过改造预训练过程的遮盖操作,使用领域内的新闻语料和百科知识进行再预训练,将外部知识融入预训练模型,加强模型对领域内自然文本的表达能力;结合中文依存句法和关系抽取任务的联系,使用双仿射注意力机制提取句子的句法信息,对原生多头注意力机制进行改造,通过依存句法增强的多头注意力层将句法信息融入句子的表征向量,用句法信息辅助关系抽取;在模型设计方面,为了优化复杂场景下的关系重叠问题,平衡模型复杂度与抽取完备性,采用基于标签策略的联合抽取方法,将实体关系抽取任务转换为多标签分类任务。为了缓解多标签分类任务中的样本不均衡问题,探究了基于交叉熵损失函数改进的损失函数在关系抽取任务中的可行性。在训练数据方面,从样本均衡和样本降噪两方面进行了数据增强。在开源的中文数据集上进行了验证实验。模型在开源数据集上取得了良好的效果,联合关系抽取模型可以正确地抽取非结构化文本中的多关系三元组,预测速度较快,通过消融实验验证了联合关系抽取模型中各个增强模块的有效性。设计和开发了面向特定领域的联合关系抽取系统,构建了特定领域内的数据集。系统中的关系抽取模块在预训练、前处理和后处理过程进行领域适配以提升抽取性能,系统能够对新闻网站爬取的语料进行抽取,将抽取的关系三元组更新到关系图谱中,用户可速览关系图谱的总体信息和更新状态,可通过实体、关系查询具体的关系三元组,可在已查询出的实体上进行关联查询。
其他文献
中华优秀传统文化融入高职大学语文教学有助于提高大学生的语文综合素养,塑造大学生健全人格与优良人品。学校可通过锤炼高职大学语文教师队伍、提升融入质量,创新高职大学语文教学模式拓宽融入渠道,加强高职大学语文教学内容建设深化融入力度等方式,使中华优秀传统文化有机融入高职大学语文教学。
期刊
随着测试基准的不断发展,对测试数据集的要求也越来越高。对于各种测试数据集,存在不少相对应的数据生成器。这些数据生成器多为利用真实数据集作为源数据或利用公式、建立数据模型进行计算。但并不存在一款通用的灵活的数据生成器,能根据数据集的不同,灵活定义数据集的需求,快速高效的生成数据。因此充分利用字典的灵活性设计并实现一个通用数据生成器是十分有必要的。首先,剖析了数据生成领域中对于通用数据生成器的一般要求
学位
零件几何测量是智能制造中的一个重要支撑技术,它保证了制造出来的零件精度在设计所允许的误差范围内。当前,大多数零件几何测量系统中交互式显示系统都采用的是一般的图形系统,交互能力存在较大局限性,尤其是其中搭载软件多以国外软件为主,由此产生卡脖子、可用性、安全性等问题。针对以上原因,为了达到更好的交互显示目标,选择用虚拟引擎作为交互式显示的支撑平台,由此所设计的交互式显示系统,提供了一种直观、形象、精确
学位
随着电力网络基础设施建设不断加快,保证输电线路的安全与稳定显得尤为重要。目前,输电线路故障检测平台存在以下问题:1.计算任务集中在云端,导致网络通道压力过大;2.不支持隐患识别能力进行自学习迭代提升。因此,平台需要借助云边协同技术和自学习机制,重新设计总体架构,充分发挥云边协同能力,提升故障检测效果。基于云边协同的输电线路故障检测平台由边缘端和云端两大部分构成。其中,边缘端包括隐患识别模块和雷电数
学位
为评估作为决策支持系统底层支撑的数据库管理系统的性能,事务处理性能委员会组织提出了TPC-DS基准。在该基准所提供的工具包的基础上,设计和实现了一个适应实际需求的测试工具,对开展数据库管理系统在TPC-DS基准符合程度方面的评测工作具有重要意义。从业务模型、数据模型、测试流程、性能指标、工具包内容等方面对TPC-DS基准进行了分析,设计和实现了一个面向决策支持系统的数据库管理系统性能测试工具,包含
学位
文章阐述了中华优秀传统文化融入高职语文课程的必要性及融入路径,指出高职语文课程要承担立德树人的根本任务,传播中华优秀传统文化,助力学生全面发展就要从教材内容、教学方法、教师素质等方面着手进行改革。
期刊
子宫内膜异位症是一种慢性、复发性疾病,异位的子宫内膜主要位于卵巢、子宫直肠陷凹、宫骶韧带等部位,从而导致一系列相应的症状,在心理和生理方面对女性产生双重影响。2022年7月ESHRE(欧洲人类生殖与胚胎学学会)更新了题为“ESHRE指南:子宫内膜异位症”的临床指南。该指南就不同生命阶段子宫内膜异位症的诊断和相关症状的治疗建议作出概述,总结了子宫内膜异位症临床管理的多项建议及结论。
期刊
医疗数据共享能够提高医疗质量、控制医疗成本、提升医学科研水平、辅助行政办公决策和推动公共卫生领域的进步,政府机构、医学界、学术界等对医疗数据共享的应用价值也给予充分的肯定。然而,在实际病种诊疗过程中,例如Ⅱ型糖尿病往往存在“多病共存”的现象,此类数据在共享的过程中无法做到跨学科、跨属性的精准访问控制;且医疗数据本身具有较高保密性,采用传统的共享方案存在单点故障、数据任意篡改等安全问题。针对以上医疗
学位
在大数据时代,伴随着基于知识图谱的个性化推荐、智能问答等应用的普及,高质量知识图谱的构建技术成为众多学者的研究重点。然而,单个知识图谱难以满足实际应用的需求,需要融合异源的知识图谱。知识图谱融合的关键就是知识图谱对齐,即实体对齐技术和关系对齐技术,其目的就是找出不同知识图谱中等价的实体对和关系对。当前知识图谱对齐技术存在融合信息不充分、少样本种子对训练集等问题,因此,如何设计高效准确的知识图谱对齐
学位
随着智能合约愈加广泛的应用,以太坊等区块链系统中出现了大量的庞氏骗局、蜜罐骗局等利用恶意智能合约实现的欺诈活动。基于神经网络智能合约源代码分类工具容易受到对抗样本攻击的欺骗,恶意智能合约创建者可能会通过对抗样本的方式来规避检测。现有的代码对抗样本生成技术可以使用替换一个或多个变量名的方式来让特定模型产生错误的分类结果,但是这些方法没有考虑如何在修改变量名以添加扰动时,降低扰动隐蔽性的问题。特别是对
学位