基于特征融合的中文命名实体识别

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:simplyblue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别任务是自然语言处理领域重要的研究方向之一,旨在识别文本中的人名、地名、机构名和专有名词等实体,作为一项基本任务,常被应用于知识图谱、文本分类、摘要抽取等场景。中文命名实体识别的文本来源于中文文本,通常被视为序列标注任务,早期研究者使用传统的统计学习方法解决该任务,近年来,深度学习成为主流方法,采用Seq2Seq架构对文本信息进行编码解码操作。当研究该任务时,科研人员通常基于字符进行文本表征,目的是解决未登录词问题,然后使用词汇增强技术将词汇的边界信息融入字符信息中,还有科研人员根据汉字特点同时融入字形、拼音等特征,这些方法均取得了不错的效果,但是仍然面临几点挑战。首先,当考虑融入字形特征时,如何选用并合理运用有价值的字形特征?其次,当考虑融入分词词汇时,汉字的自匹配词不完全有意义,对于那些无用的词汇该如何避免其影响边界的识别?最后,当考虑将多种特征共同融入字符信息时,如何既避免信息损失又减少信息冗余?本文针对上述问题进行了深入研究,提出了基于字符级的识别方法和基于词汇增强的识别方法,并在多个数据集上进行了对比实验,通过评估指标验证本文模型的优越性。总而言之,本文的核心贡献如下:1.本文提出了一种新颖的结合字特征和字形特征的基于字符级的中文命名实体识别方法:针对融入字形特征问题,本文选用了汉字繁体字的仓颉码作为字形特征,依据有两点:1)繁体字保留了汉字的形声与表意结构;2)仓颉码是繁体字最大的字形编码方式且重码率较低。本文先对文本中的字符进行简转繁和繁转码的过程,然后使用预训练模型Word2Vec训练形码向量,最后将字特征和字形特征一起作为Bi LSTM-CRF模型的文本表征层。通过在四个通用领域数据集和一个金融领域数据集上训练和测试,验证了融入字形特征后可以提高中文命名实体识别的准确性。2.本文针对Soft Lexicon方法中前缀树部分自匹配词采用多种分词工具进行过滤改进:前缀树产生的潜在自匹配词中,含有部分无意义或分词错误的词汇,本文精选三种分词工具,用其结果来覆盖纠正这些词汇,构成边界更准确的词表,该表降低了错误词汇词频,提高了正确词汇词频。3.本文进一步提出了融合字特征、字形特征和词汇信息的基于词汇增强的中文命名实体识别方法——CGW-LSTM:为了加强边界字符被预测为边界的可能性,本文对前缀树搜索和三种分词工具得到的匹配词集合不去重。针对Soft Lexicon方法的匹配词集合中独个字作为边界词汇集合融入字符信息时可能产生的信息冗余问题,本文将匹配词集合中的单个字移除,其余词汇分为三类子词汇集合,分别是当前字作为开始字的词汇集合B、作为中间字的词汇集合M和作为末尾字的词汇集合E。最后,将子词汇集合的词汇向量压缩得到的固定维度向量、字特征向量和字形特征向量以拼接的方式送入Bi LSTM-CRF模型进行训练。通过实验验证,该识别方法与贡献1中的方法相比,中文命名实体识别的性能有所提升,而且优于其他多种使用词汇增强技术的模型。综上所述,为了有效利用中文的特征来提高中文命名实体识别的性能,本文基于Bi LSTM-CRF模型,首先提出将汉字的仓颉码训练的形码向量融入字特征向量的基于字符级的方法;然后通过改进Soft Lexicon方法,获取边界更有效的词表,进一步提出将词汇信息融入字形特征向量和字特征向量的基于词汇增强的方法——CGW-LSTM。将两种方法先后在四个通用领域数据集和一个金融领域数据集上进行实验,实验验证了本文方法的有效性和优越性。本文的方法不仅可用于普通中文命名实体识别,也可将本文文本表征层采用的字形特征和词汇增强的思想应用于嵌套中文命名实体识别和其他自然语言处理任务。
其他文献
随着国家预算管理改革的不断深化,预算绩效管理制度体系已初步建立,整体绩效管理是改革和发展的新趋势。高校实施整体绩效管理不仅是落实国家预算管理改革的政策要求,也是推动高校治理能力与治理体系现代化的内在需要。文章从高校实施整体绩效管理的重要意义入手,梳理有关整体绩效管理的制度文件,分析教育部直属高校实施整体绩效管理的现状和难点,在综合整理中央及地方实践探索经验和成果的基础上,提出高校实施整体绩效管理的
素质教育背景下,国家除了要求技术人才掌握专业的知识技能,同时还要求其具备一定的综合素质能力。《汽车电器构造与维修》作为汽车制造与试验技术专业的核心课程,通过将课程思政元素融入其中,能够达到提供学生综合素质的目的。基于此,本文首先阐述了《汽车电器构造与维修》课程思政元素融入的必要性,然后分析了《汽车电器构造与维修》课程思政元素的融入思路,最后则为课程思政元素融入《汽车电器构造与维修》提供了融入对策,
线上线下混合教学模式产生后,传统教学中存在的一些不足有了很好的解决方案,该模式打破了传统教学受空间、时间等特定因素约束的硬伤,实现了教育资源共享化、教育手段最优化,更有利于学生学习的个性化和自主化。对教师来说,线上教学模式的加入带来了更丰富的教学环境和强大的教学工具,打破了以往教学的单一化与封闭性,对学生而言,新的教学环节更能充分体现学生在学习活动中的主体性,提升学生的主动学习能力。本文主要结合线
城乡二元体制的刚性和系统性,是我国在创造史无前例经济奇迹的同时,产生的中等收入群体增长相对较缓、贫富差距相对较大的重大结构性问题,在某种程度上也是推进共同富裕必须突破的中心所在。在今天和未来构建以国内大循环为主体、国内国际双循环相互促进的新发展格局中,实现农民真正市民化和自主选择、城乡基本公共服务均等化、城市偏好政策的全面取消等,缩小城乡差距乃至使其消失,是深入推进城乡融合发展的必然要求,也是实现
目的 皮肤病医生采用计算机辅助诊断系统对皮肤病进行诊断时,由于不同皮肤病彩色图像有着极强的相似性,导致皮肤病诊断的准确度不高。为了提高对皮肤病诊断的准确度,提出一种基于部分迁移学习的皮肤病图像分类算法。方法 实验采用的数据集是由国际皮肤成像协会(ISIC)提供的ISIC2018和ISIC2019数据集。ISIC2018数据集光化角化病(AKIEC)图像327幅,良性角化病(BKL)图像1 099幅
随着教育改革的不断深入和发展,基础教育改革要求改变课程评价过分强调甄别和选拔的功能,要发挥评价促进学生发展、教师提高和改进教学实践的功能。所以教师在小学音乐课堂上创新教学评价有利于促进学生的个性发展,促进学生音乐素养的提升。本文就小学音乐课堂中教学评价的实施策略展开探讨,以期音乐课堂教学效率大大提升,促进学生全面发展。
在当前全球化发展过程中,本土企业在这一影响下受到了巨大冲击,为促进本土企业未来的可持续发展,开展“STP”战略下企业国际市场营销可行性分析。在明确企业发展的过程中引入国际市场营销策略的必要性后,针对“STP”战略下企业应当注意的问题进行全面分析,并分别从“STP”战略中的细化市场、目标市场和市场定位方面,对这一战略在本土企业未来发展中的可行性进行分析,从而为企业营销策略的制定和实施提供全新思路。
本文旨在研究中国传统木作元素在现代手造中的设计方法与应用。通过运用案例分析法,以传统木作元素为立足点,结合现代手造的特点及优势,探讨并总结了ECI元素设计法,借助大量的设计案例,从提取、转化、整合三个方面解析了传统木作元素的设计方法与应用方式,为设计创作提供理论依据,探讨在现代手造语境下传统木作的“两创”路径。
近年来,我国的环境污染日益严重,对人们的正常生活和健康产生了严重影响。环境监测是保护生态环境的重要措施,不仅可以帮助人们准确掌握当地生态环境的数据及其变化,而且还可帮助人们根据需要采取适当的保护措施,实现环境保护的目标。本文简要分析了环境监测在生态环境保护中的作用,从七个方面深入探讨了环境监测在生态环境保护工作中的途径,供相关人士交流参考。