基于注意力机制的实体链接方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:js_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个网络资源膨胀的时代,网络上的数据呈现出数据量大、表达多样和价值密度低等特征,数据的歧义性影响人们对于信息的辨别和理解。为了解决实体的语义歧义问题,实体链接技术被提出,其目标是根据文档中指称的上下文语义信息,链接一个文档的指称到一个知识库的相应实体。为了提高链接的准确率,实体链接方法需要同时考虑指称和候选实体之间的局部兼容性以及与文档中其它实体之间的一致性。本文针对当前大多数实体链接方法在获取指称和候选实体之间的语义信息时,没有揭示注意力的焦点、实体链接准确率有待提高以及实体链接的时间复杂度高的问题,提出基于注意力机制的实体链接方法,主要工作如下:(1)针对实体链接中由于数据稀疏导致语义信息不足、准确率低的问题,本文提出了基于协同注意力和卷积神经网络的实体链接方法(Collaborative Attention and Convolutional Neural Networks based Entity Linking,CACNN-EL)。协同注意力机制识别出指称上下文和候选实体描述中最有用的单词、过滤掉不相关的单词,提高了实体链接的准确率;将CNN多粒度特征和多个先验重要性特征进行融合,获得更多的语义信息,进一步提高了实体链接的准确率;(2)针对实体链接中由于全局推理的搜索空间复杂导致计算成本较高、数据噪音大导致准确率低的问题,本文提出了基于神经注意的动态上下文增强实体链接方法(Neural Attention Dynamic Context Augmentation based Entity Linking,NADCA-EL)。为了减少噪音,本文采取两个措施,一个是对文档中的指称进行排序,另一个是使用神经注意过滤噪音。NADCA-EL实现了实体之间的一致性,从先前已经链接的预测实体和预测实体的邻居实体中累计知识,增强以后的决策。NADCA-EL只需一次遍历所有的指称,降低了实体链接的时间复杂性。本文将局部特征和神经注意的动态上下文增强的全局特征融合后,再用前馈神经网络处理得到指称候选实体的概率得分。NADCA-EL方法实现了在噪音较小的数据集上准确率不降低的同时提高了实体链接的效率。在公开数据集上的实验验证表明,基于注意力机制的实体链接方法实现了准确率不降低的同时提高了实体链接的效率。
其他文献
乡土企业与农民利益联结是乡村振兴战略的基本要求,也是推进农业农村现代化的有力抓手。对鄂西M镇“茶长制”实施的案例进行实证分析,可将乡土企业与农民的利益联结方式分为利益分配、利益保障及利益调节。从产销网络化、服务与资源供需适配、契约化治理等三个层面来看,M镇在“茶长制”实施中主要构建了三种利益联结机制,即以镇村融合来延伸区域产业链和生产网络、以“茶、旅、文”结合来引导服务和要素的供需适配以及以相机治
期刊
Pawlak粗糙集模型是粗糙集理论中最经典的模型,它通过确立一种等价关系使论域粒子化,非常适合处理离散型数据,但是对于生活问题中常见的数值型数据,Pawlak粗糙集模型却只能将数值型数据离散化以后再进行处理。为了能够直接处理连续的数值型数据,学者们提出了邻域粗糙集模型。运用邻域粗糙集理论可以直接地处理各种符号类型、数值类型以及混合属性类的大量数据,已被广泛应用于人工智能、模式识别与数据挖掘等科学研
学位
为解决粒子滤波检测前跟踪(Particle Filter Track-Before-Detect,PF-TBD)算法由于粒子退化而无法获得较好的检测跟踪性能问题,各学者提出了多种改进方法,而且为提高PF-TBD对机动目标的处理能力,发展出了多模型粒子滤波检测前跟踪(Track-Before-Detect Based on Multi Model Particle Filter,MMPF-TBD)算
学位
傅里叶叠层成像是一种新型的超分辨率成像技术,该技术利用合成孔径的方式,突破系统孔径的限制,实现超分辨率成像。傅里叶叠层重构过程中需要大量的数据,在采集数据时若存在位置偏差,将影响重构图像的质量,降低重构图像的分辨率。为了解决采集位置偏差的问题,本文从算法层面出发,结合深度学习的方法开展了对傅里叶叠层成像位置偏差校正的研究。介绍了傅里叶叠层微观成像系统和傅里叶叠层宏观成像系统,研究了两种成像系统的物
学位
视频监控是船舶交通领域的主要监管手段,但是受雾、雨、雪等恶劣天气的影响,难以全天候监控,而现有的清晰化算法研究多是针对单一的恶劣天气,能处理多种恶劣天气的算法模型并不多见。因此,设计一个能够自动感知恶劣天气类型,并能自适应去雾、去雨或者去雪的处理方法是很有必要的。本文构建了自适应视频图像清晰化处理系统,该系统可自动对低能见度环境进行感知,利用感知信息,自适应选择和控制视频图像处理算法,以获取与环境
学位
随着地理信息定位技术的发展,用户的生活中开始广泛应用基于位置的服务(Location-based Services LBS),LBS系统的主要目标是获取用户的位置,并向使用者提供即时的信息以便用户做出决策。LBS在诸如车辆导航,医疗保障,用户购物方面都有着重要的应用价值。然而,传统的LBS只是专注于路网距离一个维度,例如,传统的LBS只能查找距离用户最近的酒店而无法查找到距离用户距离近且价格低的酒
学位
因比特币表现出的稳定性和可靠性,具有去中心化、防篡改等技术特性的区块链技术被揭示,并立即得到高度重视。区块链本质上是一个分布式账本,类似分布式数据库,但又有根本区别:去中心化的运行模式。随着区块链应用从数字货币、溯源等迅速扩展到各个领域,已有技术支撑的早期区块链技术方案的容量局限性问题越来越明显,区块链核心技术亟待创新与突破,特别是以公链吞吐量大幅提升和时延降低为代表。现有的扩容技术中,分片技术被
学位
在工业界产品用户体验设计实践中,用户人群划分是一个重要环节。传统的用户人群划分方法存在数据客观性不足、数据分析耗时费力以及过度依赖用户体验工程师主观判断等问题,影响了人群划分的质量。上述传统用户人群划分方法中存在的问题如何借助目前快速发展的用户数据采集工具来加以解决,是一个值得探索的课题。本文针对上述存在问题,选择了游戏、购物两个具有代表性的应用领域,针对每个领域采用迭代方式进行了两轮案例研究,在
学位
随着监控设备的普及,作为智能安保、目标追踪等任务的重要辅助手段,行人重识别近年来被广泛研究。然而行人重识别任务在提取身份相关特征时存在的信息丢失问题会使得行人身份信息提取不够充分,进而影响行人重识别模型的准确度。基于局部特征的行人重识别方法能保留更多的局部重要特征,对遮挡问题也有较好的效果,但应对下采样导致的信息丢失问题存在不足。结合不同分辨率特征的方法在检测和分割任务中已广泛使用且被证明对下采样
学位
微颗粒存在于生活中的各个领域,在海洋生态领域中,微塑料会严重威胁海洋中生物和人类的生命健康。在船舶运输领域中船舶压载水携带的微藻细胞会严重影响当地的水域生态系统,因此微颗粒的检测对人类的生命健康和海洋生态系统平衡都具有非常重要的意义,而传统的微颗粒检测设备由于其操作复杂、体积较大、价格昂贵等因素不适合对微颗粒的快速检测,因而研发一套便携、高效的微颗粒检测设备具有十分重要的意义。本文提出了一种基于多
学位