论文部分内容阅读
化工领域在为我国经济发展做出巨大贡献的同时,化工产品的易燃、易爆等特点致使化工事故也在频繁发生,化工事故无论是对企业还是环境造成的破坏都是巨大的。化工数据专业性和复杂性高、知识密度大,如何快速而准确地从海量的数据中获取有用的知识,从而减少化工生产过程中的不安全因素,减少事故的发生,成为化工领域的一个难点。化工领域信息抽取是攻破这一难点的重要技术手段,而实体关系抽取技术是化工领域信息抽取中必不可少的技术之一。本文针对化工领域实体关系抽取技术进行研究,主要研究内容如下:(1)为了取得化工领域实体关系抽取时所必需的化工领域文本数据集和化工领域实体词典,设计并实现了化工领域数据采集与处理子系统。针对化工领域关系抽取数据多源异构的问题,该子系统可以同时支持在线网络数据的爬取和离线文档数据的导入两种方式来进行化工领域数据的采集工作。对于在线数据该子系统能够自动爬取百度百科中的化工领域网页数据,然后采用XPath和正则表达式等规则提取网页文本数据;对于离线数据运用本文提出的数据转换操作提取其中的数据。本文以该子系统采集到的数据来构造化工领域实体词典和进行关系标注与抽取。(2)为了方便对化工领域数据进行关系标注,设计了基于众包的关系标注算法并实现了基于众包的关系标注子系统。该子系统对文本中的实体进行识别并利用众包方式进行人工标注,并根据标注结果对实体间关系进行打分,然后根据实体关系得分的阈值来判断实体间是否有关系,并将识别的结果进行存储。该子系统可以很方便地对化工领域数据进行关系标注并生成高质量的训练集。本文通过实验验证了在不同参数阈值下该标注算法的性能,通过选定合适的阈值,其F1值最高可以达到92.26%。(3)为了可以更精确地从非结构化文本中识别实体信息及实体之间的语义关系类别,提出了一种基于混合神经网络的化工领域中文实体关系抽取模型BiGRU-Att-PCNN。该模型中采用BiGRU(Bi-directional Gated Recurrent Unit)更好地获取文本序列的上下文语序相关信息;然后采用Attention机制自动关注对关系影响力高的序列特征;再采用PCNN(Piecewise Convolution Neural Network),从调整后的序列中较好地学习相关环境特征信息来进行关系抽取;最后使用Ranger优化器替代原有的Adam优化器来进行优化。该模型在化工领域中文数据集上取得了85.36%的F1值,实验表明该方法表现出了较好的性能。(4)基于上述研究,设计并实现了一个化工领域实体关系抽取系统。该系统实现了化工领域数据采集,关系标注,实体关系抽取、存储和查询等功能。