【摘 要】
:
化学工业作为基石产业在推动我国的经济发展中具有重要的作用,但化学化工事故的频发,也造成了巨大财产损失和人身伤害。因此,采用自然语言处理和知识图谱实现风险可视化,从而减少甚至避免事故的发生。现今关于危险化学品的数据集及相关研究较少,使得从网络上的非结构化文本中抽取知识并构建知识图谱存在很大的困难。本文基于深度学习对此问题进行研究,具体如下:首先,爬取目标危险化学品的数据,获取描述危险化学品风险信息的
论文部分内容阅读
化学工业作为基石产业在推动我国的经济发展中具有重要的作用,但化学化工事故的频发,也造成了巨大财产损失和人身伤害。因此,采用自然语言处理和知识图谱实现风险可视化,从而减少甚至避免事故的发生。现今关于危险化学品的数据集及相关研究较少,使得从网络上的非结构化文本中抽取知识并构建知识图谱存在很大的困难。本文基于深度学习对此问题进行研究,具体如下:首先,爬取目标危险化学品的数据,获取描述危险化学品风险信息的语句。根据所获语句的特性,将关系作为一种实体,采用命名实体识别技术,实现合并命名实体识别和关系抽取的目的。同时,设计出符合本研究所需要的标注工具,构建危险化学品风险信息数据集。为提升模型的收敛速度,本文优化了平均随机梯度下降算法(Averaged Stochastic Gradient Descent,ASGD),得到了参数回滚平均随机梯度下降算法(Parameter Rollback Averaged Stochastic Gradient Descent,PR-ASGD)。针对平均随机梯度下降算法在语言模型中需要微调获取更优解和跳出局部最优解能力弱的问题,利用参数回滚方法动态调整模型训练中的学习步长,以增大算法跳出局部最优解的概率,得到更优解,并加速模型收敛。为快速识别出风险信息语句中的实体,本文提出一种基于PR-ASGD与BERT(Bidirectional Encoder Representation from Transformers)的模型。采用PR-ASGD算法使得模型有跳出局部最优解的能力;利用预训练模型BERT获取信息量更为丰富的词向量,并在双向长短期记忆网络(Bidirectional Long Short-Term Memory,Bi LSTM)层后结合自注意力机制层,更深层次的挖掘字符间的语义信息。然后利用该模型对风险信息语句进行信息抽取,获得相应风险信息数据。最后本文构建含有风险信息的危险化学品知识图谱,并设计了知识图谱可视化查询系统。实验结果表明,在Penn Treebank数据集上使用PRASGD算法,AWD-LSTM(Averaged Stochastic Gradient Descent WeightDropped Long Short-Term Memory)模型困惑度为56.26,AWD-LSTM-Mo S(Mixture of Softmaxes)模型困惑度为53.57,对比原模型分别降低1.03%和0.87%;在CLUENER数据集、MSRA数据集、Weibo NER数据集上使用PR-ASGD算法,F1值分别为70.90%、90.54%、56.20%,相较于使用ASGD算法F1值提高了0.4%、0.35%、1.58%;提出的模型在自建的数据集中精确率、召回率、F1值分别为94.03%、95.11%、94.57%,相较其他模型效果更佳。基于危险化学品知识图谱搭建的可视化查询系统,清楚的展示各个实体间的关联关系信息,使人们在查询危险化学品相关性质时结果能够更加直观生动。
其他文献
<正>高考英语阅读中的"七选五"题型相对于传统的四选一阅读更加注重考查学生对语篇的宏观、微观结构的把握。语篇结构是语篇知识的重要组成部分,是培养学生英语学科核心素养的重要载体。《普通高中英语课程标准(2017年版)》(以下简称《课程标准》)第26~28页的语篇知识部分对什么是语篇,语篇的宏观、微观结构以及语篇知识的内容要求做了说明。作为高考英语阅读的重要组成部分,"七选五"阅读考查的语篇知识内容主
2008年金融危机背景下西方发达国家首先提出制造业振兴战略,这对我国高端制造业也产生了持续性影响。现如今十四五规划下,我国高端制造业的高质量发展也被提上议程。作为一个国家强大的重要保障,大力发展高端制造业,提高高端制造业企业核心竞争力成为发展重点。而高端制造业的发展离不开人才的创新,因此如何实现高端制造业创新人才的培育成为当下研究的热点。但目前高端制造企业创新型人才培育方式多为企业自主培育和委托合
当前国家全面实施创新驱动发展战略,民族医学院校需重新审视创新创业教育师资队伍建设内涵,探寻基于创新创业教育的壮医药师资队伍建设路径。研究基于创新创业教育的壮医药师资队伍建设,阐述高等医校创新创业教育师资队伍建设的内涵,回顾梳理壮医药师资队伍建设实践,调查了解壮医药师资队伍建设现状,探讨基于创新创业教育的壮医药师资队伍建设路径。
通过分析大乘佛教“中观派”对于缘起、因果、运动的理解,进而探究《物不迁论》的写作目的及其意义。认为《物不迁论》通过对运动的否定,深化了对于缘起的认识,进而为中国佛教朝向心性论的转变,提供了理论上的助力。
各类资源的存在是维系人类社会与自然社会和谐发展的重要保障,与其他国家相比,尽管我国在矿物资源方面占据巨大的优势,但受到人数基数的影响,资源的人均分配相对较低,尤其是在水资源方面更是如此。对于农业领域而言,水资源的匮乏会导致灌溉效率大幅度下降,所起到的应用效果也无法令人满足,因此,相关部门在进行资源利用时,应当依照农业的灌溉需求进行技术上的调整,明确节水需求的同时进行高效性应用,这样不但能够降低外界
针对新型连续窄幅钢箱梁-混凝土组合桥梁,研究了该桥型桥梁的桥面板拉应力控制方法与措施.将该桥型组合桥梁等效为可变刚度的Euler梁,给出任意横向荷载作用下变刚度梁的静力弯曲解析通解,并得到三跨连续阶梯型变刚度梁变形及其内力分布特征.在此基础上,以三跨连续窄幅钢箱梁-混凝土组合桥梁为研究对象,考虑下部钢箱梁与上部混凝土桥面板完全剪力连接,通过改变负弯矩区钢箱梁壁厚、内部充填混凝土的强度、长度与高度等
文章主要针对农业水利灌溉模式与节水技术展开深入研究,结合农业水利灌溉管理的概念和农田水利灌溉中存在的问题和现状,先阐述农业水利灌溉模式,如灌溉技术、渠道防渗技术、低压灌溉技术、喷灌技术等,然后又提出几点切实可行的节水技术,主要包括工程节水措施、农田管理节水措施、引进高效节水灌溉技术、减少面源污染、在思想上实现转变,进一步推动农业经济的发展。
<正>秦皇岛市抚宁区四季分明,春季干旱多风,夏季炎热多雨,秋季昼暖夜凉,冬季寒冷干燥,项目区土壤分为褐土、棕壤土、石质土、潮土、风沙土六大类,占比依次为64.06%、25.03%,3.92%,2.80%,0.54%。田间水利设施尚不完善,运行阶段出现严重的渗漏问题,土薄石厚,水资源利用率长期未见提升,以致农业结构调整过程面对诸多阻碍。外加存在着大范围的中低产田,粮食混合单产低于400公斤,对产品品
针对上证综合指数一天的风险价值,本文在GARCH模型框架下,通过一种新的分布形式——Johnson SU分布对其进行评估,经与正态分布、学生t分布及广义误差分布进行对比发现,Johnson SU分布对风险价值的预测效果最佳。通过Kupiec失败频率检验和相对误差两个指标对模型进行综合评价发现,Johnson SU分布不仅在任意置信水平上均通过了Kupiec失败频率检验,还与正态分布、学生t分布及广
界面过渡区是水泥浆与骨料之间的薄层部分,具有孔隙率高、氢氧化钙晶体富集和定向排列等特点。其形成机理主要包括边壁效应、微区泌水效应、离子迁移和成核效应、单边生长效应、絮凝成团效应及脱水收缩效应。各种效应协同作用,导致界面过渡区成为混凝土最薄弱的环节。提高界面过渡区的粘结性能有利于改善混凝土的力学性能和耐久性。本文综述了常用的界面过渡区改进方法,即掺加矿物掺合料和纳米材料、改性骨料、生物矿化以及二氧化