基于BERT的新能源检测领域实体识别方法研究

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:zhangshun102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新能源检测领域作为一个新兴领域,是新能源发展和应用中不可或缺的一部分。新能源领域的发展过程中必然要对相关的新能源性能参数进行检验检测,因此会产生海量的检测通告和文书。这些能源检测相关信息分布零散无规律,造成了检索困难,新能源项目送检困难的局面。如果想将已存在的文本信息进行收集再利用,整合领域资源,就离不开命名实体识别技术的帮助,命名实体识别技术的目的就是从非结构的文本信息内提取出人为定义好的具有特定含义的实体。首先经过研究发现新能源检测领域存在的实体语料匮乏、实体嵌套严重、实体类型冗杂繁多等问题,为此本文利用爬虫技术构建出了含有能源组织、能源检测项目、检测标准、检测仪器四种命名实体的新能源检测领域数据集来训练模型解决数据集匮乏的问题。首先,本文借助迁移学习的思想,引入BERT预训练模型。从大规模通用语义数据集中训练模型,加强了模型的语义提取能力。解决新能源检测领域存在的实体嵌套严重、实体类型冗杂繁多所导致的识别困难等问题。然后结合Bi GRU双向轻编码模型和CRF随机条件场搭建出BERT-Bi GRU-CRF(BGC)复合模型。在构建好的数据集上进行训练。结果表明BGC模型的准确率,召回率,F1值都比不加入BERT的主流模型都有了很大的提升。F1综合达到了83%。对比BERT-Bi LSTM-CRF模型BGC模型在训练时间缩短6%。说明了BGC模型可以很好的解决实体边界模糊和句式冗杂的新能源检测领域问题,同时训练效率更高。针对数据集匮乏的情况,我们尝试采用了训练参数更小的轻模型ALBERT模型相较于BERT预处理模型而言其采用的跨参数共享sop预测机制和词向量因式分解使得模型的训练参数只有原来的十分之一。将搭建好的轻便模型在新能源检测数据集进行训练,得到的F1得分要高于其他主流的深度学习模型。进一步探究模型在数据集匮乏的情况下性能,通过二分法梯度下降数据集的量级。分析实验结果发现ALBERT模型在数据量级一直下降的情况下,F1值比BERT模型下降趋势更加缓慢。证明模型参数的减少对数据量级的需求减少的正面意义。同时验证ALBERT模型在小数据集进行命名实体识别任务的优良性。最终设计制作针对新能源检测领域基于BERT-Bi GRU-CRF模型的命名实体识别软件。对软件的功能进行逻辑介绍,同时依据实验结果分析改进完善新能源检测领域的实体定义,进一步优化新能源检测领域数据集,制作新能源检测知识图谱,为后续进一步探究新能源检测领域的自然语言处理技术的应用与发展提供技术支持。
其他文献
随着微机电技术的快速发展,无线传感器节点已经广泛应用在军事装备、人工智能、生物医疗、环境检测和智能交通等领域,并将在未来发挥更加重要的作用。为了解决低功耗电子设备的无线供电问题,振动能量收集技术应运而生,利用压电材料可以将环境中无处不在的振动能转化为电能并存储,然后供给无线传感器节点用电,既节能环保,又可满足长期服役需求。然而传统悬臂梁式压电俘能器频率带宽窄,环境适应能力差,只有在共振状态下才能高
学位
辨识车辆行驶的安全状态是车辆辅助驾驶甚至无人驾驶技术研究的基础,帮助驾驶员把握实时运行状态,分析行车安全性,形成正确驾驶经验的重要数据支撑,是一种有效的主动安全技术。近年来,汽车电子传感器以及智能仪表设备的增设,使得获取汽车的工况状态参数更简便、准确,智慧交通系统使路网信息的获取更易更全面,这些都为车辆运行安全状态辨识系统的研究提供了可靠的数据和技术支持,开发优异的辨识方法就显得十分重要。本文整体
学位
随着化工行业的快速发展,环境污染和能源短缺的问题日益凸显。在此背景下,光催化作为一种绿色环保、可持续的技术应运而生,研究人员越来越致力于寻找高效无污染的光催化剂。碳量子点(CQDs)作为一种新兴的零维碳材料,具有无毒、生物相容性好、环境友好等优点。经过十几年的发展,其在催化、荧光成像、发光器件、生物传感、离子检测等众多领域内都具有广泛应用。本文从CQDs的基本性质出发,开展了相关光催化剂的制备及其
学位
为了应对环境污染和能源短缺等问题,世界各国均开始大力发展以锂电池为能量源的纯电动汽车。但是锂电池的功率密度较低、循环寿命较短,在大功率充放电状态下还容易出现容量衰减速度加快和充放电效率降低的问题,严重制约了纯电动汽车的发展。而超级电容、储能式飞轮和机电式飞轮等功率型辅助储能装置普遍具有功率密度大、循环寿命长的优点,理论上可以有效弥补锂电池的不足。因此,本文以锂电池/超级电容、锂电池/储能式飞轮和锂
学位
土地作为国家公园内最核心的自然资源,实现国家公园内全民所有的土地占主体地位,是达成《建立国家公园体制总体方案》所提出的“确保全民所有的自然资源占主体地位”政策目标的重要途径。因此,探寻一种能够同时兼顾国家公园环境保护与资源利用的土地流转模式尤为重要。鉴于当前我国国家公园土地流转中存在人地关系矛盾突出、强制流转现象明显、专项财政资金短缺及流转补偿标准较低等现实困境,加之现有土地流转模式如强制性的征收
学位
2020年山东省主要农作物耕种收综合机械化率达到88.5%,保持较快增长。但山东省井灌区小麦-玉米两熟种植模式存在技术模式多样、机械效能未能充分发挥、农机具配套比低、农机动力与资金浪费问题。因此,需构建山东省井灌区小麦-玉米全程机械化农机配备模型来解决上述问题,加快小麦-玉米全程机械化进程。本文通过实地调研与综合效益评价明确了山东省井灌区小麦-玉米全程机械化生产工艺,利用模糊综合评价法完成了农机具
学位
立轴反击式破碎机广泛应用于矿山、基建和冶金等行业,由钢铁耐磨材料制成的锤头与衬板作为其核心零部件,在服役过程中需长期经受严酷的硬质磨料磨损以及氧化和腐蚀等复杂工况,极易发生断裂或磨损失效而导致停工停产,降低企业生产效率。传统钢铁耐磨材料因受其固有性质的限制,其强韧性配合无法从根本上保证材料在同时经受高速、高应力及高冲击等复杂磨料磨损工况下的使用寿命,已经无法满足日益增长的科技与工业发展需求。所以,
学位
中国在过去数十年时间里经历了前所未有的快速城市化,与之相伴的是城市蔓延现象的日益加重。“摊大饼”式的城市蔓延带来了包括能源消耗、资源浪费和环境恶化在内的一系列问题。与此同时,在二氧化碳排放导致全球变暖影响全人类生存发展的背景下,我国作为负责任的大国已郑重承诺“将力争于2030年前实现碳达峰、努力争取2060年前实现碳中和”。针对城市蔓延对碳排放影响的研究,有利于促进城市健康持续的发展,也为“碳达峰
学位
近几年,随着恒大地产、花样年集团等房地产企业连续违约事件的爆发与房产税试点等国家宏观调控因素的推进,房地产行业进入低谷期,多数房地产开发企业都面临着激烈的市场竞争。根据中商企业研究院官网数据显示,我国共有房地产开发企业99544家,中小企业占比超过99%。在房地产行业衰退期,如何提升自身竞争力,成为中小型房地产企业的重点课题。SAXC房地产公司是典型的中小房地产企业,开发项目缺乏连续性,经营能力与
学位
作为城市绿色公共设施的关键组成,公园对于改善生态环境、塑造人文景观和提高居民生活水平有积极作用。但随着城市化进程加快,城市绿色空间配置不均衡逐渐成为社会热点问题。绿色空间服务的不均衡,与我国“以人为本”的发展大政方针以及基本公共服务均等化的规划目标明显相悖。利用新型数据和科学的方法,进行城市公园可达性及公平性分析研究具有重要意义。针对现有研究中存在的分析视角单一、测度效度不足、数据精度不高等问题,
学位