基于BERT预训练模型的动物科学领域命名实体识别研究

来源 :江西农业大学 | 被引量 : 0次 | 上传用户:lihaiyun718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“新农科”建设的推进和农业信息化技术的发展,动物科学专业得到快速发展,很多动物科学领域工作者通过互联网提出问题、获取知识。命名实体识别是自然语言处理领域中的一项核心基础技术,可以从各类非结构化问答数据中识别实体、获取有用信息,进而构建问答系统、知识图谱等应用,为动物科学领域工作者所使用。命名实体识别虽然在中文的多个领域得到应用,但是很多汉字存在一词多义的特点,而传统词嵌入技术获取的词向量无法表现出这种一词多义的特征,除此之外,动物科学领域专业性强且目前该领域缺乏用于实体识别所需要的标注数据等原因,导致动物科学领域命名实体识别发展缓慢。本文创建动物科学领域语料库,并构建新的实体识别模型应用于该语料库,主要研究内容如下:(1)从知网中获取动物科学领域相关的中文文献,作为语料库基础文本,对基础文本进行预处理清洗后,使用语料标注工具,采用“BIO”(B-begin,I-inside,O-outside)标注模式,对文本语料进行标注,创建动物科学领域语料库。(2)基于BERT预训练模型,对常用的LSTM-CRF命名实体识别模型进行改进,引入双向长短期记忆网络,构建一种基于BERT预训练模型的BERT-Bi LSTM-CRF模型,该模型首先利用BERT预训练模型得到有上下文语义信息的词向量表示,有效解决一词多义问题,再将词向量表示输入到双向长短期记忆网络层进行上下文编码,提高识别准确性,最后通过条件随机场获得最优识别效果。(3)将模型在创建的动物科学领域语料库上进行实验,并与RNN-CRF、LSTM-CRF、Bi LSTM-CRF以及BERT-CRF模型进行对比。结果表明,该模型实体识别的精确率、召回率与F1值均优于其他模型,证明了该模型的有效性。
其他文献
捞月型悬崖式树木盆景(简称“捞月型盆景”)作为悬崖式盆景的一种新颖别致的造型形式,是模仿自然界或悬崖峭壁上生长的一种树木形态,其树干超出盆外且弯曲下垂的姿态,既表现出蜿蜒曲折的形式美,又体现出下跌回旋的动势美。捞月型盆景是对传统盆景形式的破格创新,造型动感强且灵活多变,是树木盆景中别具风韵的形式。目前,捞月型盆景的相关理论及创作技法等还处于初步探索阶段。本课题研究,不仅可为捞月型盆景的创作提供指导
学位
我国具有独特的农垦历史文化,由于人民的生活水准越来越高,旅游业的形式正在逐渐改变。休闲农业是一种新的模式和亮点,以农业为基础,集农业和旅游业于一体的新型农业产业。通过开发具有地域特色的田园景观和生态环境,满足更多游客的参与观光体验需求,提高农业生产的效率、促进乡村的繁荣发展和农民的收入增长。实现第一、第三产业的结合。通过农业景观资源的开发和农业生产状况的分析,促进乡村经济发展,发展集亲近自然、农垦
学位
随着信息技术的迅猛发展,数据量随之飞速增长,为了挖掘出数据中有价值的信息,数据挖掘受到了广泛关注,而随着数据量增加的同时,特征的维度也在不断增大,引发了维度灾难问题,特征选择是有效的解决维度灾难问题的手段之一,现有的特征选择方法大多只针对静态数据,而许多实际应用中数据往往呈现动态性与复杂性等特点,而动态场景下现有的在线流特征选择方法大部分仅能处理单一类型数据。此外,现实生活中广泛存在实例多义性的问
学位
森林是地球之肺,对维护和改善生态环境起着决定性作用,同时也是人类生存与发展重要的物质基础。论文以江西省金溪县为研究区,基于2009-2019年3期森林资源二类调查数据,分析其森林资源结构及质量的动态变化,采用层次分析法分别构建了商品林和生态公益林质量评价指标体系并进行了评价,在此基础上提出了相应的对策与建议,为研究区森林资源可持续发展提供参考依据。主要结果与结论如下:(1)2019年金溪县林地面积
学位
乡村人居林建设是改善村庄生态环境的重要举措,也是新农村建设的重要组成部分。而植物是人居林构建的基础,因村民需求不一,所以对于绿化树种的需求也存在差异。目前关于不同村庄类型的乡村人居林树种结构差异及村民对绿化树种的需求还缺少比较系统的研究,阻碍了科学开展乡村人居林建设的步伐。本研究以江西省91个村庄为例,通过实地调查结合树种组成及村民需求意愿分析,比较不同建设类型村庄的人居林结构特征差异,并结合树种
学位
心律失常是心血管疾病中常见的病症之一,诊断心律失常往往需要通过心电图检查。然而对心电图的目视检查不仅耗时,而且可能导致误诊,影响疾病的预防及治疗。因此,需要通过自动分析技术来辅助医生进行心律失常的诊断,从而提高诊断效率和准确性。目前,实现心律失常自动分类的方法主要有基于传统机器学习方法和基于深度学习方法。传统机器学习方法分类器的性能很大程度上取决于手工提取特征的质量,模型泛化能力弱。基于深度学习的
学位
图像语义分割就是对图像中每个像素点进行类别预测,通过使用不同颜色对不同类别进行划分,同时还保留了各个像素点在图像中的位置信息,是图像理解的核心任务之一。Deeplab v3+是目前性能较好的全监督编码-解码模型结构,其复杂的编码过程能够有效提取图像的高级语义特征,但在特征图上采样过程中仅融合一个尺度的编码特征,这种解码方式会导致多尺度上下文细节信息的丢失,使得最终的分割结果较为粗糙。全监督语义分割
学位
人口老龄化问题是我国当前面临的一项日渐严峻的社会关注问题。我国社会的老龄化趋势,引发了国家对老年人群健康问题的持续关注。体力活动已成为老年人促进健康的重要方式,而社区公园作为最接近老年人生活的活动载体,其活动空间优化研究存在不足。因此,如何优化社区公园老年人体力活动空间,从而促进老年人身心健康,成为了当前社会普遍关注的话题。本文采用理论与实践相结合的研究方式,对社区公园老年人体力活动空间优化设计展
学位
近年来,随着虚拟试衣、智慧交通等技术的不断发展,对人体图像数据的需求量也日益剧增,人体图像生成模型成为了重要研究课题。然而,面对背景复杂、图像分布不均匀、细节纹理要求高的情况下,如何生成图像清晰、各方面符合人类感知的真实人体图像仍然是一个具有挑战性的问题。相比于传统的生成模型,生成对抗网络已经在近几年被证实在图像生成等一些主流任务中,其生成能力、模型泛化能力等方面都更有优势。因此,为了提高人体图像
学位
在大数据时代的背景下,收集到的数据在语义和形式上日趋丰富。作为机器学习领域广泛讨论的问题,标记多义性问题近年来受到了越来越多的关注。多标记学习是当前解决标记多义性问题的主流范式。在该范式中,每个实例可同时属于多个标记,且同一实例所关联的标记具有相同的重要性。很显然,多标记学习仍然无法回答“不同标记对同一个实例的描述程度如何?”的问题,这也局限了它在处理标记多义性问题上的广度。因此,标记分布学习作为
学位