面向化工领域的实体关系抽取技术研究

来源 :青岛科技大学 | 被引量 : 2次 | 上传用户:bingyuziqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化工领域在为我国经济发展做出巨大贡献的同时,化工产品的易燃、易爆等特点致使化工事故也在频繁发生,化工事故无论是对企业还是环境造成的破坏都是巨大的。化工数据专业性和复杂性高、知识密度大,如何快速而准确地从海量的数据中获取有用的知识,从而减少化工生产过程中的不安全因素,减少事故的发生,成为化工领域的一个难点。化工领域信息抽取是攻破这一难点的重要技术手段,而实体关系抽取技术是化工领域信息抽取中必不可少的技术之一。本文针对化工领域实体关系抽取技术进行研究,主要研究内容如下:(1)为了取得化工领域实体关系抽取时所必需的化工领域文本数据集和化工领域实体词典,设计并实现了化工领域数据采集与处理子系统。针对化工领域关系抽取数据多源异构的问题,该子系统可以同时支持在线网络数据的爬取和离线文档数据的导入两种方式来进行化工领域数据的采集工作。对于在线数据该子系统能够自动爬取百度百科中的化工领域网页数据,然后采用XPath和正则表达式等规则提取网页文本数据;对于离线数据运用本文提出的数据转换操作提取其中的数据。本文以该子系统采集到的数据来构造化工领域实体词典和进行关系标注与抽取。(2)为了方便对化工领域数据进行关系标注,设计了基于众包的关系标注算法并实现了基于众包的关系标注子系统。该子系统对文本中的实体进行识别并利用众包方式进行人工标注,并根据标注结果对实体间关系进行打分,然后根据实体关系得分的阈值来判断实体间是否有关系,并将识别的结果进行存储。该子系统可以很方便地对化工领域数据进行关系标注并生成高质量的训练集。本文通过实验验证了在不同参数阈值下该标注算法的性能,通过选定合适的阈值,其F1值最高可以达到92.26%。(3)为了可以更精确地从非结构化文本中识别实体信息及实体之间的语义关系类别,提出了一种基于混合神经网络的化工领域中文实体关系抽取模型BiGRU-Att-PCNN。该模型中采用BiGRU(Bi-directional Gated Recurrent Unit)更好地获取文本序列的上下文语序相关信息;然后采用Attention机制自动关注对关系影响力高的序列特征;再采用PCNN(Piecewise Convolution Neural Network),从调整后的序列中较好地学习相关环境特征信息来进行关系抽取;最后使用Ranger优化器替代原有的Adam优化器来进行优化。该模型在化工领域中文数据集上取得了85.36%的F1值,实验表明该方法表现出了较好的性能。(4)基于上述研究,设计并实现了一个化工领域实体关系抽取系统。该系统实现了化工领域数据采集,关系标注,实体关系抽取、存储和查询等功能。
其他文献
当前,商用白光LED中最被人们熟知的是蓝光LED激发的石榴石型YAG:Ce3+黄色荧光粉,由于该荧光粉发射光谱中缺少红光成分,导致合成的白光LED表现出较低的显色指数和高的色温。针
在现代国防装备及工业应用中,需要在地下、水下甚至金属附近等复杂环境中实现信息传递的需求越来越多。传统利用高频电磁波进行通信的无线电通信技术,由于电磁波的特性,在土
在国内多地区的生态环境遭受着巨大威胁的背景下,开展各种形式的基于流域尺度的生态系统服务研究成为了热点话题。海河流域是我国水资源矛盾最突出的地区之一,并且在强降水的
由于经济全球化和多元化程度的进一步加大,使得市场中的不稳定因素和投资者的需求越来越多.为了迎合市场的变化和投资者的需求,一大批新型期权产品被设计出来并被投放到市场
近年来,二维材料凭借其优异的电子和光学特性被广泛地应用到光电器件的制备和应用当中,该类材料与其他材料所制备的异质结结构也得到了具备更多的光电特性的三维材料。铜镓氧
可转债作为同时具有债性和股性双重性质的债券,其定价问题一直受到各国学者的关注.对可转债的最早研究中曾用偏微分方程(PDE)方法得到可转债定价的解析解,但在真实市场中,利
近年来,随着移动通信的发展,当前的移动通信系统已经不能满足人们对获得图片传输、视频聊天等这种对通信质量有着更高要求的多媒体业务。针对当今越来越高的用户需求,人们开
白玉菇属于真姬菇的一类白色变种,是一种大型木质腐生的可食用真菌。以白玉菇子实体为原料,通过控制温度、超声波、pH值、盐离子等条件因素分级提取了3种白玉菇粗多糖:WHM1,W
低温共烧陶瓷(LTCC,Low Temperature Cofired Ceramics)技术是一种新型的材料技术,它是高集成度、高性能电子封装和电子元器件小型化、轻量化、高可靠性的技术基础。现在在国际
随着位置服务需求的日益发展,各种室内定位技术不断涌现,比如基于WiFi定位、基于地磁定位、基于蓝牙定位、基于航迹推断定位等。现有的单一模式室内定位技术在定位精度、实时