中文信息抽取及在煤矿安全领域应用研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:xxxxssss11112222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取任务是自然语言处理技术中处理非结构化文本的重要方法,而命名实体识别和关系抽取是信息抽取中的两个主要子任务,命名实体识别可以从非结构化文本中抽取出指定实体及其类别,关系抽取能从中抽取形如<头实体,关系,尾实体>的关系三元组,同时这两个子任务也是搭建知识图谱及智能问答的关键性基础任务。在以往的众多研究中研究者多偏重于英文通用领域的信息抽取研究,而中文的信息抽取研究较少,同时对于特定领域的研究也较为欠缺。本文针对上述问题进行了相应的研究。针对中文信息抽取,由于中文重在表义,本文提出一种融合多层语义信息的结构,将预训练语言模型Ro BERTa的12层Transformer Encoder进行了不同语义层次的整合,从而更好的表示中文语义。同时结合因具有解耦性和易实现性,而被工业界广泛采用的流水线式模型搭建实体关系抽取模型。为使模型更好的识别实体与关系,笔者对各模块进行了不同的深度学习神经网络组合,并进行消融实验以验证其有效性。最后在中文实体关系公开数据集Du IE 2.0上对模型整体效果进行了实验。针对流水线式模型存在的误差传播且对嵌套实体和关系重叠识别效果较差等问题,本文通过构建多层指针网络结合主谓感知二阶段模型,搭建联合式实体关系抽取模型解决上述问题。该联合式模型对实体关系任务进行了重新划分,第一阶段进行头实体与关系的识别,并对所识别出的头实体与关系向量进行存储以便于第二阶段识别尾实体,从而实现实体关系三元组抽取,并在Du IE 2.0进行实验,结果表明该模型优于流水线式模型和其他主流联合式模型。本文以煤矿安全作为特定领域信息抽取的研究对象,为解决煤矿安全领域无公开已标注数据集问题,本文首先利用网页爬虫等技术进行煤矿数据采集,其次对煤矿安全实体关系进行定义,同时为了降低人工成本,本文基于主动学习的思想提出一种多轮次半自动化实体标注方法,在保证标注质量的同时最大限度降低人工成本。以此方法进行实体标注后再进行关系标注,形成煤矿安全实体关系数据集。其次,为使模型更好表达煤矿语义,将Ro BERTa在煤矿语料上进行进一步预训练,并结合上述流水线式模型的NER模块和主谓感知联合式模型,提出了面向煤矿安全的实体关系抽取模型。最后为更便于普通用户使用此模型,本文以网站为平台搭建了煤矿安全实体关系抽取系统。
其他文献
学位
在经典的时间分离效用下,风险厌恶系数和跨期替代弹性(EIS)互为倒数关系.很多文献表明这种关系将会产生资产定价难题:风险溢价过低和无风险利率过高.为了解决这些问题,Epstein-Zin(1989)和Duffie-Epstein(1992)先后在离散时间和连续时间下提出了递归效用的概念.本文在Epstein-Zin型递归效用模型下,考虑了带有限制的最优投资消费策略和稳健模型下的最优投资策略问题.首
学位
煤炭目前依旧是我国的支柱能源之一,煤炭资源储量的估算和三维动态管理是煤矿建设、开采及管理中的重要工作,煤层被开采出来前,只有有限的煤层揭露点的数据,如何利用有限的揭露点数据来精准计算煤层的资源量,对于煤炭资源储量的精准管理以及煤矿勘探、建设、生产的精确设计和高效利用具有重大意义。论文通过建立三维煤矿资源量估算模型,探索煤矿资源量精确估算方法,并对多个模型进行估算精度比较,寻找最佳的煤矿资源量估算方
学位
我国存在数量较多的煤矸石山,其中部分煤矸石山发生自燃后,常导致环境污染、人员伤亡等后果。目前国内外学者对煤矸石山自燃防治技术已开展了大量研究,但仍难以准确探测煤矸石山内部高温火源区域、灭火后仍存在复燃现象等问题。为了更精准地对煤矸石山内部高温火源区域进行降温灭火,提高治理效果的时效性,本文基于温敏性水凝胶提出了一种煤矸石山自燃防治新思路,从微观和宏观层面对温敏性水凝胶的性能特性、灭火阻化机理和煤矸
学位
矿井突水是影响矿山开采、威胁井下人员生命安全的主要灾害之一。矿井突水不仅造成的损失大,而且持续时间长。能够在灾害发生时能更有效的预测井下突水范围、规划井下人员的逃生路径,是矿山安全生产过程中的最后一道防线。因此,借助基于计算机图形学的可视化技术与网络分析算法模拟并渲染突水时的相关情景并规划逃生路径具有相当的应用价值。本文的主要工作如下:(1)在研究矿井突水水流基本运动规律的基础上设计了矿井水流淹没
学位
锂离子电池具有能量转换效率高、循环稳定、维护简单、适应性强等特点,具有广阔的应用前景。随着近年来智能设备逐步向轻量化、多功能化的方向发展,传统石墨负极的理论比容量仅为372 m Ah g-1,这难以满足快速增长的市场需求。因此,设计具有高容量、高循环和倍率性能的负极材料来提高锂离子的存储能力是十分必要和迫切的。近年来的研究表明,过渡金属磷化物具有较高的理论比容量、良好的电化学导电性和较低的成本,被
学位
自然资源是是我们人类文明存续的重要基础和支撑,是社会发展进步的最重要资源之一。近几年来,我国社会经济各方面高速发展,自然资源的合理开发和高效利用都起到极其重要的作用。但是,随着城镇化速度加快,自然资源的有限性,与社会经济高速发展需求的紧迫性矛盾突出,自然资源集约节约管理过程中,就凸显了有法不依、执法不严的现象和问题。自然资源执法是保障我国自然资源相关法律法规全面贯彻落实的方式之一,是保护我国自然资
学位
燃煤是我国供能的主要方式,随着国家对环境要求的提高,以及一些燃煤所造成的重金属污染事件的发生,煤中重金属污染的问题渐渐引起了人们的注意,燃煤中重金属的污染防治问题迫在眉捷。在燃煤过程中,通过添加助剂与煤共燃烧来捕获重金属被证明是一项具有研究前景的技术。本文针对添加剂与煤燃烧中重金属的富集展开了实验和模拟研究,旨在获得添加剂与煤共燃烧下重金属的富集机制,为实际的生产运行中燃煤下重金属的分布提供理论基
学位
在能源消耗增长、能源价格上升、倡导绿色生产、节能环保的全球背景下,针对生产过程中能源消耗问题的研究价值逐渐上升。通过合理配置车间资源,可实现经济指标和环境指标的协同优化。其中,对车间节能调度的研究中存在两点不足,一方面是能耗研究不足,未考虑车间中占比较大的非加工能耗;另一方面是对干扰事件的研究不足,未深层次分析与量化车间干扰的形成机理与扰动影响。因此,探讨出一套适用于车间节能和干扰事件分析评估的方
学位
羊毛作为一种重要的纺织原料,因其柔软、保暖性好等优点而广受消费者的喜爱。羊毛制品中的羊毛含量是衡量产品质量的重要依据,传统检测方法多具有破坏性、费时费力且对相关检测人员的技术要求较高,无法满足快速评估羊毛制品质量的需求。近红外光谱分析技术是一种无需破坏样本结构、可模型封装操作的快速检测方法。鉴于此,本文将近红外光谱技术和深度学习技术结合,研究羊毛制品中羊毛含量的定性分析,主要内容如下:在制备羊毛制
学位