基于特征增强的中文命名实体识别方法研究

来源 :山东工商学院 | 被引量 : 0次 | 上传用户:zth123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理的一项基础任务,如何准确地识别命名实体至关重要。当前,英文命名实体识别已取得较大进展。与英文相比,中文语法结构、语义复杂且词与词之间没有明显分界,实体识别较为困难。对此,本文以中文命名实体识别为课题,进行深入研究。根据模型嵌入向量的不同,中文命名实体识别方法分为字级嵌入和词级嵌入。词级嵌入方法对分词有较强依赖且存在严重的分词错误问题。字级嵌入方法虽避免了分词错误,但仅将字向量嵌入模型,缺少了词边界以及词义信息,识别效果有待提升;其次,当文本中存在未登录词、无关词时,模型学习不充分,往往造成实体识别错误,使识别算法性能下降。除此之外语料中还存在模糊词,即该词为实体且该实体对应多个实体类型或实体的内部包含一个或多个其他实体。该类词在实体识别的过程中,实体边界及类型难以确定,识别较为困难。针对以上问题,本文提出了基于特征增强的中文命名实体识别方法。从模型嵌入、注意力机制以及实体标签入手,以如何利用相关语料获取先验知识为中心,实现特征增强进而提高实体识别的准确率。本文主要研究内容概括如下:(1)提出融合词信息的注意力自适应(Attention Adaptive Model with Word Information,AAMWI)命名实体识别模型。该模型将语句的字嵌入向量与词信息嵌入向量融合作为模型输入,通过增加词级信息实现特征增强;在编码层中设计了自适应分布选择(Adaptive Distribution Selection,ADS)的注意力机制,通过引入动态缩放因子,根据隐层输出自适应的调整相关实体和无关词的注意力分布,一定程度上减轻了无关词对模型的干扰,提高了命名实体识别的性能。(2)提出基于互信息和邻接熵的新词发现方法构建领域词典,在此基础上生成词信息标记向量,以获取字符在相关词中的位置信息,进而构成语句的词信息嵌入矩阵。该方法在原始语料中逐字扩展,利用互信息、邻接熵以及共现矩阵筛选新词,实现了基于规则和基于统计方法的结合,相比N-Gram算法,识别的新词未出现较多重复词串,取得令人满意的效果。(3)提出融合先验知识的增强特征嵌入(Enhanced Feature Embedding with Prior Knowledge,EFe PK)命名实体识别模型。该模型将先验知识嵌入向量与浅层嵌入向量融合作为增强特征嵌入,通过字词级联合分布反映实体特征进而实现特征增强,在避免分词错误的同时,一定程度上也缓解了未登录词给模型带来的影响;其次,设计了标签合并的CRF解码层,将模糊词的标签归并,通过CRF完成序列标注任务,增强了模型对模糊词的预测能力。(4)设计了语句的先验知识嵌入矩阵。首先,将与输入语句相关的语料遍历获得字频向量和有序共现矩阵,在此基础上进一步构建输入语句的潜在实体标记向量和有序互信息,进而获得语句的先验知识嵌入矩阵。该矩阵包含相关语料的先验知识,体现了字符在潜在实体中不同的分布概率以及语法结构和上下文信息,增强了字符的实体边界特征,使得模型在训练过程中,更易捕获词边界,在一定程度上提升了模型的泛化能力,对未登录词较多、文本不规范语料具有较好识别效果。本文方法在Resume、MSRA等经济、新闻类数据集以及文本不规范、未登录词较多的Weibo、Novel数据集上进行实验。相比其他模型,AAMWI和EFe PK模型实体识别的准确率得到较大提升。其中AAMWI模型通过ADS注意力机制减少了无关词的干扰,更好的提取了字、词的融合特征,在经济、新闻类数据集中获得令人满意的效果。而EFe PK模型通过融合先验知识的增强特征嵌入和标签合并的CRF解码层,使得实体边界特征更加显著,对未登录词较多、文体不规范、语意模糊的数据集具有明显优势。
其他文献
聚醚改性三硅氧烷制备的有机硅表面活性剂在农业上可用作农药的助剂,并得到广泛应用。本文针对性地研究合成腰果酚聚氧乙烯醚改性三硅氧烷表面活性剂,为我国农业发展增添一种有潜力的新型农用助剂。首先,以丙烯酸(AA)为改性剂经酯化反应接枝到腰果酚聚氧乙烯醚(BGF-6)上制得丙烯酸腰果酚聚氧乙烯醚(BGF-6-AA),并通过FTIR、UV和1HNMR验证其结构。采用单因素试验对BGF-6-AA生产工艺进行优
学位
本文以微生物发酵甘油生产1,3-丙二醇的批式流加发酵过程为背景,研究了一类非线性脉冲时滞系统的参数辨识及其最优控制问题。根据实际批式流加发酵过程的特点,考虑发酵过程中底物与目标产物的跨膜运输方式及中间代谢物对发酵的影响,建立了一个八维非线性脉冲时滞动力系统来描述批式流加发酵过程,研究了相应的参数辨识问题及最优控制问题。主要工作概括如下:1、在微生物批式流加发酵过程中,每次碱和甘油的注入过程相较于整
学位
本篇探讨含二甲基胺硼烷的化学镀铜液.现发展一种铵的碱性化学镀铜液,在不同的基体上每小时沉积2.3微米,该沉积层含有少于0.4%的硼.篇内还述及添加氯化亚锡于化学镀铜液中,可沉积含10%锡的铜锡合金.
期刊
产业集聚主要是由距离较近的中小企业聚集到某一区域逐渐形成的,目的是增强区域内各企业的经济综合实力和竞争力。市场通过上下游产业的竞争与合作构建区域竞争优势,并通过产业集聚的发展带动区域内的经济发展。与此同时,产业集聚也带来了诸多环境问题,并且这类环境问题存在一定的区域差异性,不同的地区环境污染问题也不尽相同。目前关于产业集聚水平对环境污染究竟起到加剧作用还是抑制作用并没有得出一致的结论。这是由于我国
学位
<正> 电子工业的发展,为化学镀铜提供了广阔的应用前景.铜具有良好的导电性能和钎焊性能,此外,化学镀铜可以在室温下进行,从而可以避免塑料板因受高温溶液处理而发生翘曲和透入湿气.所有这些,都是化学镀铜应用在塑料表面金属化方面优越于化学镀镍的地方.然而,化学镀铜的最大缺点是溶液不稳定,使用寿命短.这个缺点,使化学镀铜工艺在生产上的应用受到一定的限制. 曾经有人对以甲醛为还原剂的化学镀铜
期刊
随着我国市场经济的逐步发展,商品市场的竞争也越来越激烈。由于法律知识的普及,公众维权意识逐渐觉醒,消费者与商品生产、经营者之间的侵权纠纷日益增加。作为促进商品销售的有效形式——代言广告成为了人们关注的对象。商品代言人代言行为作为商品流通过程中的一个重要的组成部分,其行为有帮助扩张商品销售规模,增进商品销售数量的功能。商品代言人的代言行为与消费者的消费行为构成信赖利益关系。为坚持诚实守信原则,维稳社
学位
农药的滥用威胁生态平衡,开发新型纳米制剂对提高农药的利用率和生物安全性有很大潜力。纳米体系具有小体积和高表面积比等优势,可有效地调控活性成分的释放来提高农药持久性和利用率。聚琥珀酰亚胺(PSI)由于其独特的结构和温和的胺解开环反应,有望开发成一种新型且环境友好型的农药纳米载体制剂。本研究通过化学改性得到3-氨丙基三乙氧基硅烷、对氨基水杨酸改性聚琥珀酰亚胺和色氨酸改性聚琥珀酰亚胺,以提高阿维菌素(A
学位
病害是影响植物健康的重要因素之一。植物精油和微量营养元素能够增强植物防御酶活性以抵抗病菌入侵,且不易产生耐药性。采用纳米技术控制溶解度、释放、增强生物利用度等来提高精油和微量营养元素的作用效率。六方氮化硼(h-BN)具有独特的粘附性、疏水性,可作为活性成分高效递送载体。h-BN的剥离和功能化是提升载体性能的关键,本文分别采用天然高分子、合成高分子、金属离子三种策略修饰并调控h-BN的特性,包括羧甲
学位
地方人大预算监督是实现依法治国的重要内容,是约束预算规模、提高预算执行效率、提升资源配置效率的重要手段。落实地方人大预算监督需要较强的预算监督能力。在实践中,由于地方人大没有预算否决权,人大会议时间短,审议事项繁杂等原因,预算审批趋向形式化。所以人大及其常委会的预算监督能力大小主要取决于人大财经委的预算监督能力。研究如何提升人大财经委的预算监督能力能为加强人大预算监督提供支持。本文以我国大陆31省
学位
甜菜夜蛾核型多角体病毒(Spodoptera exigua multiple nucleopolyhedrovirus,Se MNPV)生物杀虫剂能有效控制甜菜夜蛾种群数量,在生物防治中起到了重要作用,具有重要的经济、生态、环保价值,应用前景十分广阔。由于Se MNPV易受光照、温度等影响而失去生物活性。因此,为提高杀虫效率,克服其抗紫外性能差等缺点,利用p H响应微胶囊化技术是有效的途径之一。氟
学位