基于BERT模型的电气设备相似文本检索与故障聚类识别研究

来源 :华北电力大学(北京) | 被引量 : 0次 | 上传用户:feng861013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于机器算法,准确高效地处理电力文本数据,是当前研究热点。传统电力文本的处理对象,主要针对字符数目较少的缺陷记录,处理难度及应用范围有限。随着人工智能技术的发展,希望机器算法依据语义相似度检索历史故障文本,及精确识别变压器故障长文本信息。为实现上述目标,本文在通用中文BERT(Bidirectional Encoder Representation from Transformers)语言模型的基础上,对变压器故障文本信息的机器挖掘工作进行了如下研究。首先,分析了电力文本输入BERT模型的数据结构。探究了 BERT模型的各层网络分布及作用。掌握了 BERT模型对各字符向量融合全文语义的编码过程。并将最终生成的文本全局语义向量,作为后续具体电力任务的处理对象。构建了本文的算法运行环境,在机器识别电力信息类别任务上,对比了传统word2vec与本文BERT两种语义编码方法的识别指标。发现BERT模型并行处理文本数据的语义编码方式优于传统word2vec模型11.25%,比通用中文BERT最高提升了 5.16%,且可以识别出同音不同形的错字信息的类别。然后,在检索历史相似故障文本任务上,对BERT模型生成的全局语义向量进一步研究。探究了 BERT模型计算和调整故障文本语义向量相似度的方法。发现在通用中文BERT参数下,文本间核心故障语义虽相近,但编码后的语义向量存在较大差异,会影响模型的检索效果。通过设计正反样本数据集,提高了 BERT模型辨别故障语义相似匹配指标F1值25.6%~30%。对比了不同全局语义向量提取方式下的模型编码效果,发现通过加权思想调控全局向量的方法最佳。在优化后的BERT模型参数下,对782份历史故障向量集合进行了自动聚类分析,得出6个最优聚类文本向量簇,及各簇中心向量及数量分布情况,实现了机器算法自动聚类相似故障表述文本的功能。构建了一套用于变压器相似历史故障检索的算法框架,提高了检索效率50%左右。最后,依据后期专家标注故障文本工作,将原先机器算法自动聚类出的6种类别扩展到10种具体故障部件及现象标签。为拟合各故障描述文本与其故障标签的对应关系,提出了 Kbert(BERT+K-Means++)算法,并进一步优化了BERT模型参数;其中,发现部分单一文本可能存在不止一种故障现象,采用K-Means++算法提取和最大概率值相近的全部标签作为识别结果,使识别结果更为全面;相比原有单一 BERT识别模型的识别F1值提高1.1%-3.5%。对拟合样本数量不均,可能造成文本数量少的故障标签拟合效果不佳问题,提出了动态修正拟合损失值权重的方法,将识别指标F1值提高了 2.6%至8.1%。Kbert比当前常用的Bi-LSTM+Attention算法识别指标高29.8%至37.2%;
其他文献
随着化石能源的日益枯竭,大力提高可再生能源消纳能力已经成为我国“十四五”规划的重要目标。基于模块化多电平换流器的柔性直流电网,可以实现能源资源互补优化配置。在实际工程中直流电网采用架空线进行电能传输,线路故障率较高,故障电流发展迅速且无过零点,直流断路器具备隔离故障线路的功能,但是由于其中含有大量全控型器件,导致其造价高昂,因此需要进一步研究低成本的故障清除方案。首先,论文分析了交直流电网故障特性
学位
<正>高职院校基层教研室组织能力重构是根据高职教育发展新要求,以能力提升为目的重新构建的教研室组织形式。目前高职院校基层教研室组织存在严重的组织虚化、功能固化、职能行政化的问题,这使基层教研室组织理应具有的学术权力受到了遏制,严重地影响了基层教研室组织在新形势下的应有作为[1]。1 基层教研室组织能力重构的新内涵1.1 基层教研室组织能力重构的“五新”①新形态。基层教研室组织能力重构后的形态转换,
期刊
由于结构相对简单、容易实现且成本较低等优势,毫米波雷达在民用领域的应用范围越来越广泛,但其通常不具备目标识别能力。因此,研究毫米波雷达回波数据,实现雷达自动目标识别具有广阔的应用前景和研究意义。为了使毫米波雷达具备一定的目标识别能力,本文基于24 GHz线性调频连续波(Linear Frequency Modulated Continuous Wave,LFMCW)雷达展开了以下研究:(1)针对L
学位
英语演讲是以多模态为特征的交际场景,需要演讲者的言语与非言语相互配合。在英语演讲评测中,人工评分成本高且易受主观性影响。在人工智能与教育技术高度融合的背景下,英语演讲多模态智能评测系统的开发对演讲训练及评估具有重要意义。本文根据英语演讲的言语和动作,基于音频、文本、视频三个模态构建英语演讲智能评测系统,主要工作如下:根据多模态演讲评测的需要,构建英语演讲的言语及动作多模态智能评测系统框架,开发3D
学位
返程投资案件是国际投资仲裁庭审理管辖权问题中的一类特殊案件。返程投资往往带有明显的工具性特征,投资者往往借此规避东道国国内法律监管,甚至利用仲裁以影响国内正在进行的司法活动、干涉东道国的经济规划。返程投资不仅会破坏了市场竞争秩序,有害于东道国国内经济的健康发展,且对于国际投资环境的有序发展无益。国际投资仲裁庭的管辖权来自于东道国的让渡,各缔约国本就对案件享有外资管辖权,而返程投资仲裁案件中,投资者
学位
随着物联网技术和人工智能的发展,建筑内目标信息在智能家居、疫情防控、安防检测等领域都发挥着日趋重要的作用。已有的基于信号强度指标(Received Signal Strength Indicator,RSSI)的室内传感技术由于受信号强度本身的单一性和需要目标配合等的限制,从而影响了其测量的精度和鲁棒性。因此,本文提出了一种基于信道状态信息(Channel State Information,CS
学位
明代万历首辅张居正推动的改革是中国历史上的一次著名且较为成功的改革,几百年来一直为后世学者所关注。分析其改革进程,他认为治国之要吏治为先,首先着手大力整顿吏治,提出“省议论”和“核名实”的主张,施行检查公文落实制度的“考成法”,有效地变革了官场的不良习气,极大提高了国家各级机构的行政效率,也为他接下来推行能够顺利且高效地推行改革措施奠定了良好的执行基础。其次,再有了能够高效推行改革的工具之后,开始
学位
基于信号指纹的Wi-Fi定位方法是室内定位技术中的一种主要手段,因其部署成本低、应用场景广泛、定位精度高的特点而备受关注。但是室内环境复杂多变,室内Wi-Fi指纹库存在时效性问题,如果不能及时检测和更新过时失效的指纹数据,将导致系统定位精度降低。维系指纹数据库的准确性和有效性是当前亟需解决的问题。针对这些问题,本文主要研究了指纹匹配的有效性评估方法以及指纹库的自适应更新算法,具体内容如下:(1)研
学位
近几十年来,电动汽车(EV)的迅速发展为对化石燃料和全球变暖的担忧提供了可行的答案。然而,随着电动汽车(EV)数量的增长,现有电力系统的配电网络可能会变得不堪重负。车辆到电网(V2G)技术被广泛认为是通过在电力系统中提供辅助服务和电力平衡来减轻电网压力的最佳选择。V2G技术的一个关键特性是双向充电的可能性,其中电动汽车和电网之间存在双向充电。与单向V2G相比,它具有许多优点。对于双向功率流,它有一
学位
中间接头具有多层复合绝缘结构,是电缆系统中绝缘最薄弱的环节。在实际运行过程中,接头受到操作过电压影响时内部一些位置将出现电场强度畸变,这会加速绝缘材料老化并减少设备运行寿命。准确分析中间接头内部暂态电场的分布情况,对于深入研究中间接头结构优化和故障机理有重要的参考意义。首先,本文提出了计及初始电场分布的中间接头暂态电场计算方法,并在某厂家10kV电缆中间接头的等比例几何模型上进行了应用。该方法以时
学位