论文部分内容阅读
随着大数据时代的到来,林业相关部门在日常活动和信息化建设的过程中产生大量有价值的数据信息。但是,对于网络上分布的海量林业文本来说,主要存在以下两个特点:一是文本数量多,分散程度高,类别区分度差;二是较大规模的文本没有统一的记述结构,信息抽取难度高。因此,本文研究的内容是如何准确地从林业文本中将有价值的信息抽取出来,目的在于挖掘林业文本中有价值的信息,从而使文本的利用程度达到最大化。信息抽取技术主要分为监督算法抽取和无监督算法抽取,有监督算法标注成本高易存在过拟合现象,所以近年来无监督算法逐渐成为研究的热点。现有的无监督算法在信息抽取方面存在以下不足:一是抽取的文本信息主要从关键词角度考虑,忽视了词语的信息类型,且关键词在综合词语的特征方面存在不足;二是文本类别区分度低,缺少针对某类文本进行统一的关键信息抽取的方法。围绕以上问题的解决,本文开展了以下三个方面的研究工作:1)从词语的词频-逆文档频率特征、长度特征、词跨度特征等5类特征考虑,优化关键词的抽取公式;2)提出基于注意力机制的胶囊网络文本分类模型,用以对林业文本分类,并提出基于文本内容的文本类别标签向量的构建方法,用以提高分类效果;3)针对类别明确的同类林业文本,从“关键词+信息类型”两个方面考虑,提出了完整的关键信息抽取流程。本文以10000篇林业文本为实验数据,共计5个类别,每个类别各400篇文本,用以训练文本分类模型和构建词语的信息类型集合;以标注好关键词的400篇林业文本为实验数据,探究关键词抽取公式的抽取效果。实验结果表明:1)本文提出的融合词语多种特征的关键词抽取公式在抽取效果上优于其他抽取算法,抽取结果在准确率、综合评价指标、平均倒数等级、二元偏好度等四项指标均为最优,召回率排名第二;2)本文提出的分类模型在分类效果上优于其他模型组合,分类准确率为95.07%,召回率为92.96%,综合评价值为94.00%;3)提出的关键信息抽取流程在抽取的内容上具有很好的代表性,并且经合理探究对流程技术中涉及的参数进行确定,其中构建单个文本的图结构时阈值设置为0.4,对各文本的图结构归并聚类时阈值设置为0.5,进行簇过滤时λ1设置为0.7,λ2设置为0.3。综上,本文的研究内容能够在林业文本的关键信息抽取工作方面产生积极影响。