【摘 要】
:
随着信息化的快速发展,互联网中的文本信息越来越多,人们对自然语言处理的需求也越来越大。近几年,手机等设备的快速普及以及移动网络的快速发展,人们频繁地使用微博这类短文本信息交流工具。如何从短文本信息中挖掘出有价值的信息,是一个亟待解决的问题。命名实体识别与消歧是一系列文本处理技术的基础,本文围绕着如何提升短文本命名实体识别与消歧的效果,做了如下研究工作:(1)基于自注意力深度学习的方法,构建了一种S
论文部分内容阅读
随着信息化的快速发展,互联网中的文本信息越来越多,人们对自然语言处理的需求也越来越大。近几年,手机等设备的快速普及以及移动网络的快速发展,人们频繁地使用微博这类短文本信息交流工具。如何从短文本信息中挖掘出有价值的信息,是一个亟待解决的问题。命名实体识别与消歧是一系列文本处理技术的基础,本文围绕着如何提升短文本命名实体识别与消歧的效果,做了如下研究工作:(1)基于自注意力深度学习的方法,构建了一种SelfAttentionBiLSTM-CRF神经网络模型进行短文本的命名实体识别。引入了自注意力机制,使得模型能够在不关联外部数据的情况下,捕获上下文相关内部信息,来更好地理解句子结构,充分地挖掘出文本自身包含的特征。这种方法不需要人工地设计特征,能够自动的完成文本中端对端的命名实体识别,实验结果表明,这种模型拥有较高的识别准确率。(2)提出一种基于多特征融合的短文本实体消歧方法。依据待消歧实体指称,使用百度百科获取候选实体集,并抽取待消歧实体与候选实体的多个特征进行对比,采用线性加权的方法进行融合,从候选实体集中找出分值最高的实体作为链接目标,完成消歧。实验结果表明,这种方法对短文本的实体消歧有着良好的效果。
其他文献
樱桃果实由于加工性状不好,保持形状、质地、色泽、改进风味是加工中的难题。本研究从保持果品天然形状出发,采用创新的罐染工艺代替缸染老工艺,解决了人工染色中产品色素留量超
采用亲水挺滑硅油TF-4899对棉织物进行整理,测试手感、白度、色变、亲水性、断裂强力、稳定性、退硅油返染性、放置耐久性等。结果证明:该产品拥有优异的综合性能,克服了传统
交叉输送是指飞行中将一个贮箱内推进剂输送到另一个贮箱内的技术,它能提高液体捆绑火箭运载能力和可靠性.以某重型火箭为对象,对交叉输送总体参数进行了研究,包括运载能力贡
[编者按]西方工人运动史曾是国内世界史研究的主要领域之一,但近二十多年,这种传统的劳工史似被逐渐淡忘。而在西方,老的劳工史只是在20世纪60—70年代被新的所取代,在史学界
目前我国自然保护区与社区发展的矛盾主要表现为相互争夺土地权、资源使用权、平等经营权和利益分配权。造成自然保护区与社区发展矛盾的原因,既有现行管理体制所无法克服的缺
通过对室温通风(18±2)℃及高温高湿(温度50℃,70%湿度)储存的米糠粗脂肪、粗蛋白含量及制备的米糠浸出毛油酸值、过氧化值、色泽等指标的测定,分析研究储存条件对米糠及米糠
<正> 栽培大豆是我国劳动人民将野生大豆栽培在一定的耕作栽培条件下,向大粒的方向,长期定向培育选择而进化的结果。分析研究大豆进化的方式,以及有关进化的内在外在诸因素,
目的:以棉籽油为原料油,分别对化学法和生物酶法合成生物柴油的工艺进行研究,考察酯交换反应条件对脂肪酸甲酯得率的影响,得到佳工艺条件。分析生物柴油主要理化特性,进行放
本文对国内外汽油清洁化和多产丙烯的工艺技术,以及集总动力学模型的发展概况进行了较全面的综述。以灵活多效催化裂化工艺(FDFCC-Ⅲ)为研究对象,通过研究催化裂化过程反应机
自从本刊第一期开展关于《师说》的讨论以来,许多读者来稿来信,积极参加讨论,现选登其中四篇,并摘登五篇,以供大家进一步研究时参考。本刊关于《师说》的专题讨论,暂告一段落