基于对比学习与图神经网络的信息智能抽取技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:chen17983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,各行各业每时每刻都在互联网中产生数据,数据体量正以指数级的速度增长。然而,在执行诸如在线预定、自动存取款、库存控制等操作时往往需要结构化数据,而结构化数据的获取依赖于自然语言处理中的信息抽取技术,信息抽取技术可以实现数据从非结构化到结构化的过程。信息抽取技术的核心子任务为命名实体识别和关系抽取,通过命名实体识别和关系抽取,可以快速抽取出句子中的有效信息,服务于日常生活中的各种应用。因此,命名实体识别和关系抽取自然成为了工业界和学术界的研究重点。目前,已有一些针对命名实体识别和关系抽取的模型被提出。然而,由于文本形式的多样化,现有模型未能有效应对词句表述多元化带来的挑战,导致预测精度的降低。本文尝试从多角度解决命名实体识别和关系抽取中存在的问题,在命名实体识别领域中主要针对单词多义性问题和缩写单词识别率低的问题,提出了一种基于对比学习的命名实体识别模型,该模型改变了其内部的训练方式,进一步提升预测精度。在关系抽取领域针对使用句嵌入向量作为最终全连接层输入向量的片面性问题,提出了一种基于图神经网络的关系抽取模型,通过该模型可以得到含义更为丰富的输入向量,进一步提升了关系抽取的预测精度。本文的主要研究内容概括如下:(1)本文针对严重影响命名实体识别准确率的单词多义性和单词缩写问题,提出了一种基于对比学习的命名实体识别模型WCL-BBCD(Word Contrastive Learning with BERT-Bi LSTM-CRF-DBpedia)。该模型由WCL-BBC(Word Contrastive Learning with BERT-Bi LSTM-CRF)和DBpedia两部分组成。WCLBBC模型结合对比学习思想训练大量的正例句子对和负例句子对去微调BBC(BERT-Bi LSTM-CRF)模型中的词嵌入编码模型BERT(Bidirectional Encoder Representations from Transformers)模型,有效缓解了因单词多义性所造成的实体类型识别错误的问题。DBpedia公开知识图谱用于获取WCL-BBC模型中文本语料库输入句子的潜在实体集,并筛选出存在于DBpedia中的潜在实体。将WCLBBC模型输出的实体类型和潜在实体的实体类型进行比对并修正,有效缓解了由单词缩写所造成的识别错误的问题;(2)本文针对关系抽取方法中使用句嵌入向量作为最终全连接层输入向量的片面性问题,提出了一种基于图神经网络的关系抽取模型REEGAT(Ro BERTa Entity Embedding with Graph Attention Networks)。该模型由三部分组成,分别为Ro BERTa(Robustly Optimized BERT Approch)模型、图注意力网络模型(Graph Attention Networks,GAT)和实体嵌入组件。Ro BERTa模型用于生成词嵌入向量,GAT模型主要使用多头注意力机制对词嵌入向量进行加权计算,进一步丰富词嵌入向量所要表达的含义。然后,使用实体嵌入组件以加权后的词嵌入向量作为输入,并根据自定义的池化算法获取句嵌入向量。其次,通过WCL-BBCD模型的实体识别结果获取对应实体的嵌入向量。最后,将句嵌入向量和实体嵌入向量进行拼接形成最终的表示向量相比句嵌入向量包含了更多的关系信息和单词信息。因此,使用该表示向量替换原本的句嵌入向量能够有效缓解片面性问题;(3)本文在CoNLL-2003和OntoNotes V5英文公开数据集进行命名实体识别的多组对比实验,实验结果表明本文提出的WCL-BBCD具有更好的命名实体识别效果。在Sem Eval-2010 Task 8和Wiki80数据集上进行关系抽取的多组对比试验,实验结果表明本文提出的REEGAT模型具有更好的关系抽取效果。
其他文献
随着教育科研人数激增以及学术活动的多样化发展,网络中文献的数量庞大且增长迅速,因此各种在线学术平台相继构建。发表、检索和阅读学术文献是学校科研、教学、管理和交流工作的重要组成部分,学术平台也逐渐成为智慧校园建设的重要基础平台。在高校中,重名人员日益增多,这些大量重复的姓名会极大降低学术平台中文献检索的效率,并且可能检索出错误的数据,给高校知识图谱的构建带来极大不便。姓名消歧系统凭借维护成本低、检索
学位
随着人工智能和深度学习技术的发展,复杂场景下的文本检测识别技术逐渐成为计算机视觉的热门研究领域。在工业运输环境中,员工需要驾驶叉车运输货箱到达指定仓库,而由于人工原因经常会出现错看货箱编码、漏送货箱等情况,导致运输效率低下。因此本文从复杂场景下的文本检测识别技术入手,通过文本检测识别技术识别货箱上的编码,从而帮助员工更清晰、更直观地了解货箱编码。此外,在实际工厂环境下,存在光线昏暗、文本不规整、设
学位
随着互联网的发展,推荐系统作为一种可以满足用户个性化需求的技术,受到了广泛的关注与研究。大规模且高质量的数据对推荐系统的发展至关重要,机构和企业通过数据共享提升推荐准确率,但这种方式存在着数据隐私安全的问题。与此同时,用户保护自身隐私数据的意识逐渐觉醒,相关法律法规也日益完善,如何在保护数据隐私的前提下调度多个参与方共同训练推荐模型是亟需解决的问题,具有重要的研究价值和应用前景。近年来,面向隐私保
学位
多目标优化问题(Multi-objective Problems,MOPs)是现实世界中极为常见的难题,因为其多个目标之间往往互相冲突,无法同时达到最优。多目标优化算法(Multi-objective Optimization Evolutionary,MOEA)是解决MOPs的重要方法,其中基于分解的多目标优化算法(Decomposition-based Multi-objective Opti
学位
继我国全面打赢脱贫攻坚战,我国的“三农”工作重心发生了历史性转移,我党开始全面部署实施乡村振兴战略。自乡村振兴提出以来,党中央在乡村振兴政策制度供给上不断发力,促使大量公共资源开始向乡村领域倾斜。在权力层层下放过程中,乡村振兴领域难免会出现资金闲置浪费、项目建设偷工减料等诸多问题。为了更好地监督乡村振兴政策的贯彻落实,国家审计机关高度重视并积极开展乡村振兴政策跟踪审计实践。然而,乡村振兴政策部署尚
学位
七普与六普数据相比,临沂市呈现人口规模增长、老龄化加剧、家庭规模小型化的趋势。分析2010—2020年临沂市的人口结构和住房需求数据,用主成分分析和多元线性回归模型相结合的方法,结论显示:人口总量、收入、平均家庭户规模对临沂市住房需求影响最大。据此提出了临沂市住宅市场供需平衡发展的对策和建议。
期刊
患有色觉缺陷(CVD)的人难以区分颜色,全世界约有2亿人受到色觉缺陷疾病的影响。生活中最常见的色觉缺陷类型是L椎体细胞缺陷和M椎体细胞缺陷,我们通常称为红绿色盲。由于L椎体细胞缺陷和M椎体细胞缺陷是由性染色体X染色体上的基因决定的。因此,男性比女性更容易患上这种遗传性疾病,且目前的药物无法治愈。这种疾病会导致可识别信息的丢失,从而严重影响日常生活,甚至可能使他们面临危险。为了帮助CVD患者改善日常
学位
从单张图片中进行三维人体姿态与形状估计是计算机视觉中一个开放问题。由于图片天然缺乏深度信息,模型很难获取真实的深度信息。并且在真实场景中,遮挡问题普遍存在,导致人体可见信息不全。此外,对人体模型进行服装建模仍然是一个复杂问题。遮挡问题是人体姿态和形状估计任务中一个关键问题,其中遮挡包括人体的自我遮挡、物体与人的遮挡以及人与人之间的遮挡。为此,本文提出了一个新的框架,它整合了可遮挡感知的轮廓和2D关
学位
知识图谱是一种高度结构化的语义知识库,在语义检索、个性化推荐等领域有着广泛应用。三元组抽取作为知识图谱构建过程中至关重要的步骤,目的是从文本数据获取两个物理事实之间存在的客观联系。面向限定领域的三元组抽取方法需要预先定义所有实体和关系类型,使用机器学习或深度学习的方式在大规模数据集上训练分类模型。然而,在实际应用中实体和关系类型都会随着文本量的自然增长而增加,预先定义所有实体关系类型较为困难。对此
学位
脑机接口系统(Brain Computer Interface System,BCIs)是一种不依靠外周神经通路和肌肉等常规信息传递通道来控制外部设备的系统。传统单脑运动想象脑机接口作为最常见的主动式脑-机交互范式,存在信息传输速率较低、稳定性差等问题,难以满足快速、高精度、多指令等复杂作业的性能需求。近几年,越来越多的学者开始研究如何将基于脑电的脑机接口单脑范式向多脑扩展,以得到更稳定的分类结果
学位