论文部分内容阅读
面对快速增长的文本信息,众多研究人员进行了大量基于文本内容的分析,生态治理技术领域情报分析在大数据环境下,也面临着从海量文本中获取特定内容的挑战,如科研人员需要获取生态治理技术名称,生态治理技术的实施时间、实施的地理位置等。这将在传统基于文献的情报分析研究的基础上增加文本内容的分析维度,是情报研究方法的创新。 近几年,深度学习在自然语言处理领域得到了快速发展,命名实体识别也从最早的基于词典和规则、以及传统机器学习方法,转向了深度学习的方法,但仍存在一些亟待解决和改善的问题,包括:神经网络自身结构有待改进以更好适应研究问题,带标注训练数据的缺乏制约模型效果,忽略了对外部资源和领域知识的整合利用等。针对这些不足,本文提出了一种基于Bi-LSTM+CRF的命名实体识别方法,主要包括以下研究内容及结论: (1)Bi-LSTM+CRF神经网络模型。本研究构建了一种基于双向LSTM结合CRF的神经网络模型,包括如下步骤:①使用Word2Vec获得初始词向量;②将词向量输入传到双向LSTM神经网络对每个词的上下文信息进行建模;③在Bi-LSTM神经网络的输出端,利用连续的条件随机场CRF对句子进行标签解码,并标注句子中的实体。相较于传统的机器学习方法,此方案基于统计概率学,并能够利用词汇上下文依赖关系,应用场景更广泛。 (2)优化Word2Vec初始词向量。初始词向量是神经网络模型的重要输入,而词向量的效果与语料的领域和规模密切相关。本研究通过将训练文献的题录数据和相关领域的命名实体知识库数据组合投入Word2Vec进行训练,使模型性能(F1值)提升0.3064。 (3)构建了生态治理技术实体标注的知识库。梳理归纳了生态治理的时间、地域、生态治理技术在文本中的形式特征,并手工标注了三类实体共计116526条,作为后期神经网络学习的种子,也是该领域相关技术的知识库。将其中的97322条实体作为训练语料投入模型,在效果较好的词向量基础上增加训练语料,系统性能(F1值)提升0.0595。 (4)应用抽取结果分析相关文献。将模型抽取得到的实体应用在生态治理相关文献的时间分布、地域分布和技术主题聚类的分析中,验证了本研究中模型的实体识别的效果,以及抽取实体开展生态治理技术领域相关活动分析方法的可行性。