基于文本挖掘的铝硅合金实体关系抽取研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:zbt_25
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据驱动模式是材料基因组计划(MGI)的核心问题,但如何快速获取大量材料数据已成为需要解决的关键问题。目前,材料数据库的共享性较差,很难从公共资源中获取有效的材料数据。因此本文采用文本挖掘的方法从Al-Si合金材料文献中获取有效数据。自然语言处理(NLP)是一种常用的文本挖掘方法,关系抽取(RE)作为自然语言处理的主要任务之一,可以有效地从文献中提取信息。本文采用Al-Si合金实体关系联合抽取模型,将实体识别与关系抽取任务进行联合建模,避免了误差积累和关系重叠的问题。本文将多头选择实体关系联合抽取模型作为基础模型,对Al-Si合金实体关系联合抽取模型展开研究。通过分析存在的问题以及不足,提出针对性的解决方案和改进方法,主要工作包括以下几个方面:(1)由于目前材料领域还没有适合用于材料关系抽取研究工作的公开数据集,本文构建了Al-Si合金关系抽取数据集。根据制定的Al-Si合金关系抽取数据集构建标准,从Al-Si合金喷射沉积实验文献中收集材料数据。通过手工标注构建了Al-Si合金关系抽取数据集,包括13种实体类型和4种关系类型,共有2246个句子、2522个实体样例和1510个关系样例。(2)针对基础模型的嵌入层存在无法表达多义词和未登录词的问题,本文提出一种基于动态词嵌入的Al-Si合金实体关系联合抽取模型。该模型采用预训练的ELMo模型动态获取词嵌入,更好的表达材料科学文献中复杂的语义和语法信息。通过对ELMo模型应用于下游任务的不同方式进行实验对比,验证了预训练的ELMo模型可以较好的应用在数据集较少的材料领域中,获取的词向量准确率较高,提高了联合模型的整体性能。(3)针对基础模型的编码层存在信息丢失的问题,本文提出一种基于自注意力机制的Al-Si合金实体关系联合抽取模型。通过改进模型的编码层,在基础模型的Bi LSTM层上增加自注意力机制,避免了句子的前部分信息被后部分信息稀释或覆盖的问题,使得Al-Si合金实体关系联合抽取模型能够更好地捕捉材料科学文献中句子的依赖关系。通过实验对比,验证了基于自注意力机制的AlSi合金实体关系联合抽取模型的性能得到了有效提升。
其他文献
汽车作为一种大众消费品早已进入千家万户,伴随着数量增加,安全驾驶的问题也变得越来越显著,其中危险驾驶行为给驾驶员和乘客都带来了极大的潜在危险和财产损失,由于危险驾驶行为具备隐蔽性和无意识性,需要借助辅助设备进行疲劳驾驶检测,故本文提出了综合多因素的驾驶行为评判标准,在一个网络框架下实现了多任务的融合,实时准确且便于移植,该系统的应用对于驾驶员的安全驾驶,智慧城市的推进都具有重要意义。现阶段的危险驾
肺癌是目前所有疾病中对人类威胁最大,却极难治愈的肿瘤疾病之一。及早发现和尽快治疗是当下仅存的防治肺癌最奏效的措施,肺癌在发病初期主要的表现形式是肺结节,医生可以通过对胸部CT的观察和分析对早期肺癌进行及时诊疗。然而,随着肺部CT图片数量的激增,单纯依靠人工从大量CT图片中进行筛查、判断几乎是不可能的。基于深度学习的计算机辅助系统能够对CT图片进行初步的选取处理,可以大大减轻医生负担,降低医生误诊、
阿尔茨海默病(Alzheimer Disease,AD)以及注意力缺陷障碍症(Attention Deficit Hyperactivity Disorder,ADHD)等神经性疾病深深的影响着每一位患者的健康,该类神经性疾病起病比较迟缓,不容易被诊断出来,如果能够在早期及时的发现,则能够在很大程度上降低该类疾病晚期的发病率。人脑磁共振(Magnetic Resonance,MR)图像中的解剖结构
从时空数据中挖掘模式在人类出行行为、智能交通、城市规划和生态研究等方面有着重要的应用。信息化城市建设的一个重要问题是如何从海量的轨迹数据中挖掘出频繁轨迹序列模式进行定位感知和基于位置的服务(location-based services,LBS)。传统的轨迹序列模式挖掘算法由于挖掘过程中会产生大量中间子序列,严重影响算法收敛速度和挖掘效率。另外,随着定位技术的飞速发展,时空数据的获取越来越广泛,数
老挝作为中国的重要邻国,与中国在经济上有着密切的联系,开展老挝自然语言处理的研究工作存在重要战略意义。其中,机器翻译、信息检索等跨语言信息处理任务需要汉老双语平行语料的支持。双语句子对齐作为构建双语平行语料的关键技术,旨在提取双语文本中语义相同的平行句子对,因此具有重要的研究意义。本文提出一种融合多特征的汉老双语句子对齐方法,从而解决研究中存在的问题,主要工作如下:(1)融合文本特征的汉老双语句子
汉语-老挝语文本相似度计算研究对开展老挝语的自然语言处理研究和中老交流与发展具有重大意义。老挝语属资源稀缺型语言,汉语和老挝语具有相似的句子结构特征,通过在模型中融入语言特征能在有限的训练数据中获取更多的语义信息来提高相似度计算模型的性能。为了获取更准确的双语文本语义表示,按篇章文本的构成将其分为了段落短文本和句子,通过研究不同粒度下的语义表示方法,获取高质量的句子语义表示、段落短文本语义表示,最
引言2021年7月24号,"双减"政策出台。"双减"的任务之一就是要减轻学生不合理的作业负担。而教师作为作业布置的主体,应重视作业的设计。本文就初中英语作业设计中存在的问题,结合课例阐释如何在课程视域下提高作业设计的质量,以便更好地发挥作业的积极作用,落实"双减"政策。
期刊
着装场景下的人体姿态估计能有效提高虚拟试穿的真实性和动感展示,因此,准确估计出着装图像中的人体姿态,对辅助二维虚拟试穿具有重要作用。本文针对时尚着装场景中由于服装款式多样、背景干扰、着装姿态多变等因素,导致着装人体姿态估计精度较低的问题,以时尚街拍图像为例,首先,通过爬取大型时尚街拍图像网站Chictopia,并结合在线图像搜集获得数据集原始图像,使用Label Me对图像进行精细的人体信息标注,
太阳日冕结构的密度、位置和形状短至几秒钟就会发生变化,较大的动态范围,造成望远镜拍摄的日冕结构边缘模糊且噪声较大,使得可视化困难。随着数字图像处理技术的发展,盲退卷积算法对于要求恢复结构准确性和真实性方面提供了科学的理论依据。图像退卷积算法是图像复原增强领域的一个经典问题,因为方程的求解是欠定的,所以在退化模型的构建,清晰图像和模糊核的先验信息,失真效果的抑制,迭代算法的稳定与准确方面,越来越多的
当前,针对代码质量研究十分重要。基于源代码的代码质量分析技术一般借助于静态分析或动态测试方法对源代码进行度量,具有简单、易实现的优点,有助于代码质量的分析。随着开发者社区和代码托管平台成为程序员获取代码的主要途径,针对代码的用户评论数量急剧增加。用户在使用代码后给出的评论中包含多种代码质量信息,基于用户评论的代码质量分析可以站在用户角度进行代码质量分析,从而帮助开发者在了解用户的代码使用情况和用户