基于深度学习的中文命名实体识别研究与实现

来源 :海南大学 | 被引量 : 0次 | 上传用户:wuni_cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是一种将海量的非结构化文本数据转化为结构化文本数据的过程。近年来随着互联网的快速发展,互联网积累了越来越多重要的文本信息,这些重要的数据对大数据挖掘、大数据分析具有较重要的作用。目前,对于复杂的中文句子,大多数的中文命名实体识别(Chinese Named Entity Recognition,CNER)模型只考虑从分词或字符的部分特征去捕获句子的语义信息,而没有从多个角度、多个维度整合句子的语义信息,导致模型没有充分挖掘文本自身蕴含的语义特征,从而影响模型识别的准确率。针对这些问题,本文提出了一种基于多视图语义特征融合的中文命名实体识别方法,同时设计并实现了基于多视图语义特征融合的中文命名实体识别系统。本文具体的研究工作如下。(1)分析了中文命名实体识别的工作原理以及难点与挑战,解析了中文命名实体识别的序列标签体系、评测标准,并对中文命名实体别方法进行分类讨论。同时,剖析了几种典型的开源中文命名实体识别工具,并提出了其存在的问题。(2)提出了一种多视图语义特征融合模型,用于中文命名实体识别。在嵌入表示层构建多视图语义特征融合嵌入模块,将字符特征、词边界特征、偏旁部首特征和拼音特征融合。该模块可以从多个角度捕获基于字符的信息,有效地解决大多数的CNER模型只考虑从分词或字符的部分特征去捕获句子信息,而忽略了模型从多个角度对句子语义信息整合的问题。在网络编码层和标签解码层之间嵌入多头自注意力机制字间信息获取模块,从不同维度的子空间中捕获文本自身蕴含的上下文信息,以更好地理解和挖掘文本自身蕴含的语义特征。在四个公开数据集上的实验表明,基于多视图语义特征融合的中文命名实体识别方法可以提高CNER模型识别的准确率。此外,本文提出的方法可以满足CNER模型,丰富字符层面的语义特征和句子层面的句中关系等需求,以避免CNER模型因获取特征不充分,而影响模型整体的识别性能。(3)设计并实现了基于多视图语义特征融合的CNER系统。该系统可以通过港航大数据云计算平台提供的真实数据,完成用户登录、数据获取、数据处理、模型训练、结构化数据展示、反馈意见功能模块的实现和系统界面的展示。系统测试结果表明,本文构建的系统在实际场景应用中,有效地提高了中文命名实体识别的准确性。
其他文献
随着规模化的发展,养猪业的污染防治形势越发严峻。养猪污水处理系统的设计和施工是一项专业的系统工程,需要大量的项目经验积累、复盘纠偏、细化提升,才能逐渐具备成熟的养殖污水处理设计施工能力。本文就养猪业污水处理现状及几种常用的工艺进行阐述,为猪场选择合适的污水处理模式提供参考。
期刊
<正>第三次升级,是2003年F16星将SSM/I、SSM/T和SSM/T-2合并为更先进的SSMIS微波传感器,该传感器共有24个通道、21种频率,可探测近地表风速、水汽、云水、雪。同时,更新太空环境探测器SSULI和SSUSI,探测来自地球大气和电离层的紫外线辐射,增强对空间的观测。在全球气象圈享有一定声誉的美国国防气象卫星(Defense Meteorological Satellite P
期刊
<正>受新冠疫情交织地缘政治变化影响,全球经济发展环境空前复杂,我国经济社会发展承受压力,安防行业正常运行的基本要素被包裹在各种不确定性中。面对需求收缩、供给冲击、预期转弱多重压力,2022年以来,我国安防行业企业,积极克服国内外错综复杂环境影响,以改革攻坚的勇气,统筹疫情防控和企业经营,加强风险防控,积极探索业务转型路径。当前行业发展动力正在转换,促进行业高质量增长的积极因素在不断积累,在实现整
期刊
目的 探讨心力衰竭诊断联合检测B型钠尿肽(Pro-BNP)与高敏肌钙蛋白T(hs-cTn T)的临床价值。方法选取宜兴市中医医院2020年7月—2021年3月期间接收的1 500例心力衰竭患者,对其临床资料进行回顾性分析,将其作为研究组;另选择同期体检的健康人群1 500例作为对照组,对比2组Pro-BNP与hs-cTn T水平,分析其诊断效能及与患者心功能之间的关系。结果 研究组患者Pro-BN
期刊
前处理+电泳处理是汽车用铝合金常用的表面处理方式,磷化处理与锆化处理是常用的前处理方式。系统对比分析了6016铝合金表面磷化+电泳复合涂层与锆化+电泳复合涂层的形貌、结构、附着力、硬度、杯突性能、耐冲击性能、电化学性能、耐丝状腐蚀性能等。结果表明:锆化处理膜层厚度在50 nm左右,磷化处理膜层厚度为2μm~3μm。锆化+电泳与磷化+电泳两种复合涂层的力学性能相当。电化学测试结果表明,锆化膜具有比磷
期刊
【目的】分析延安市土地利用情况,为土地节约集约利用提供建议。【方法】以延安市所有建设用地为研究对象,下辖各县区为研究单元,定性分析建设用地的利用程度并通过建立评价指标体系,定量评价延安市土地集约利用状况。【结果】延安市土地集约程度为一般型,下辖各县区节约集约水平差异大。【结论】延安市应提高土地利用强度和利用效益,通过盘活现有存量建设用地,合理高效利用土地,从而提高土地集约利用水平。
期刊
为满足市场对夏季西服面料的需求,采用羊毛/薄荷/天丝40/30/30混纺纱作为经纬纱线,以平纹泡泡组织作为织物结构设计与生产了具有抑菌和凉感功能的西服面料。简述了薄荷纤维的天然抗菌性能,重点介绍了原料的选择、上机工艺及技术要点,并对面料进行透气、透湿等服用性能测试以及抑菌、凉感等功能性测试。试验结果表明,面料具有优异的理化性能、保形性能和吸湿排汗、透气凉爽、抑菌性能,可广泛应用于制作夏季高档西服。
期刊
作为一项语言技能,写作能充分考察学生的综合语言运用能力,提升学生“用英语做事情”的能力。而如今,在国内课堂中,教师更注重输入技能的培养(听、读),相对忽视了输出技能(说、写)。另外,在真实的写作教学中,教师鲜少会给予充足的时间,系统地进行写作练习,以供学生反复修改作文。久而久之,写作教学最凸显的问题表现为学生表达不流畅、语言准确性不高。当前,任务型语言教学中,任务重复作为一个重要的任务实施变量,引
学位
在新型城镇化背景下,县域作为实现城乡融合发展的重要载体,如何妥善处理人地关系,集约利用城镇土地成为一个关键问题.以异速增长模型作为统一可比的城镇土地集约利用测度标准,对2001—2014年浙江省54个县域城镇的土地集约利用水平展开评价与比较,并利用地理探测器对各影响因素展开分析.结果发现:异速增长模型适用于县域城镇土地集约利用测度,城镇化发展阶段、测度有效性和数据质量等对拟合优度具有约束性;浙江县
期刊
<正>授人以鱼不如授人以渔,随着教育理念的普及,越来越多的教师与家长开始将学生的自主学习能力作为衡量其学习水平的关键因素。在开展初中英语教学的过程中,教师应认识到英语作为一门工具性的学科,需要学生树立自主学习观念,将英语学习作为一个习惯,并在自主探索中逐渐找到最适合自己的学习方式,促进学生英语能力提升。
期刊