【摘 要】
:
命名实体识别是自然语言处理领域中的一项基本任务,主要负责识别出文本语料中的人名、地名等领域专有名词,在信息提取、机器翻译、知识图谱构建等任务中起着举足轻重的作用,
论文部分内容阅读
命名实体识别是自然语言处理领域中的一项基本任务,主要负责识别出文本语料中的人名、地名等领域专有名词,在信息提取、机器翻译、知识图谱构建等任务中起着举足轻重的作用,在金融、生物以及医药等行业应用中也备受关注。一般而言,命名实体识别在模型训练前需要通过人工标注大量文本数据来保证样本的丰富性,之后再通过机器学习的方式训练标注器。目前,命名实体识别研究的主体大都为短实体,在标注语料数据丰富的领域,基于全监督学习的命名实体已经取得了较高的性能,由于标注数据过程耗时耗力,因此大部分领域中只存在部分标注数据。在标注数据不足的情况下,通常采用弱监督迭代学习的形式来逐步训练模型。本文的研究主要针对金融领域文本中存在复杂实体(本文均称为长实体)且标注数据不足的问题,目前常用的命名实体识别方案无法在该情况下有效识别出文本中复杂实体。针对由多个小实体序列组成的复合实体边界难以确定,导致识别精度下降的问题,本文提出了一种将长实体上下文语义关系确定与实体边界确认分离的方法。具体工作如下:(1)提出了基于长实体遮罩处理的语义模型。在训练前对语料中的长实体进行遮罩处理,通过Bi LSTM-CRF模型训练得到被遮罩长实体的上下文语义理解模型。(2)提出了基于序列模式的弱监督长实体边界确认模型。在小样本数据集中,以滑动窗口结合序列模式匹配的方式,找出目标长实体候选集,再通过(1)中得到的语义理解模型进行有效筛选与判定。(3)针对复杂实体在一定程度上影响弱监督训练效果,提出一种基于样本相似度量的评分机制的Optimized-Bootstrapping算法,通过在增量样本的选择优化,有效的提高弱监督迭代学习中增量样本的可靠性。本文以金融领域数据为实验数据集,对比了目前在命名实体识别中较为流行的模型,结果表明,在弱监督长命名实体识别上,所提方法相比于直接基于Bi LSTM-CRF实现的命名实体识别方法在小数据训练样本集中在性能上有了大幅的提高,并具有一定的泛化能力。
其他文献
我国受改革开放政策和政府实施经济增长措施的有效促进的影响,经济的发展一直没有间断而且处于持续上升状态,居民的收入也一直在稳步提高,居民的可支配资产不断增加,居民的生活水平迈出了温饱水平逐步奔向小康,手中的余钱逐渐增多。因此居民需求个人理财产品与服务的要求越来越强烈,正是基于此大环境,国内各大银行先后推出财富管理业务(即个人理财业务),并且此类业务发展空间日益增大。本文以广发银行作为研究对象,以财富
电力行业随着国家能源市场改革的推进正快速市场化,电力企业拥有更多的自主权去获得市场机会,同时也将面临更加激烈的市场竞争。在我国能源市场持续增长的背景下,如何制定电
随着微纳尺度导热材料的出现,在超短脉冲的热冲击环境下,脉冲宽度短到与材料热弛豫时间相当,热扰动后需要一定的延迟时间才会产生热响应,这种偏离经典傅里叶传热定律的效应,
目的:分析PLC患者原发病因、年龄分层划定、CNLC分期、肝癌患者合并感染的部位、培养出的病原菌分布等临床特点,探究PLC病人合并感染可能相关的危险因素。方法:通过搜集2018年10月至2020年10月在新疆医科大学第一附属医院感染科及其他外科住院且符合纳入标准的200例PLC病人的相关病历数据等资料,将其分为2组(感染组133例、非感染组67例),对一般基线资料、实验室检测结果等数据进行了回顾性
构树为我国原生且分布广泛的一种落叶乔木。新型杂交构树是将不同品种的野生构树杂交之后,再通过太空选育、生物技术等手段综合培育、选育出的优良树种。杂交构树由于其适应
目前能源形势和环保压力日渐严峻,新能源汽车的发展成为汽车行业技术创新和产业转型的重点,截至2017年年底,我国新能源汽车政府补贴金额近千亿元,且近年新能源汽车行业骗补风
特种文献是指有特定内容和用途,出版发行渠道特殊的文献类型,包括专利文献、标准文献、会议文献、学位论文、科技报告、政府出版物和事实数据文献等。特种文献,之所以作为比
电影产业从业人员的年轻化、表现形式的多样化以及受众群体的广泛化等因素,为各种题材电影的涌现提供着广阔的沃土。作者以青春校园题材为背景与当下社会热点话题“校园贷款”相结合,使得主题新颖,具有教育意义。影片采用线性叙事结构的表现形式,按照故事的开端、发展、高潮、结尾的流程将影片更完整呈现出来。拍摄本片的初衷也是呼吁社会关注不良校园贷款给青少年带来的伤害,维护好大学中的校园秩序,培养良好的防骗意识,养成
目的:构建新疆伊犁哈萨克自治州(以下简称“伊犁州”)艾滋病综合防治效果评价指标体系;对新疆伊犁州艾滋病综合防治效果展开社会学评价;为促进艾滋病防治工作良性发展提供依据与建议。方法:采用德尔菲法经两轮专家函询修订形成新疆伊犁州艾滋病综合防治效果评价指标体系;运用TOPSIS法、综合指数法、功效系数法、WRSR法四种单一传统综合评价方法对三县市艾滋病防治工作展开评价,并采用基于离差最大化法和幂平均合成
目的:黑热病在新疆喀什地区已经延续多年,并多次发生暴发,估计传染病传播的特征参数对于优化流行病期间的控制干预措施至关重要。本文通过喀什地区的实际发病数据来估计黑热病的实时有效再生数,以了解黑热病在喀什地区的传播动态,并通过构建动力学模型的方法来掌握喀什地区黑热病的总体流行趋势并且进行长期预测,同时定量的模拟影响疾病传播的关键因素,最终为黑热病的预防和控制提供理论依据。方法:(1)实时有效再生数的估