基于Bi-LSTM与CRF的命名实体识别研究——以生态治理技术相关实体为例

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dmj_66666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对快速增长的文本信息,众多研究人员进行了大量基于文本内容的分析,生态治理技术领域情报分析在大数据环境下,也面临着从海量文本中获取特定内容的挑战,如科研人员需要获取生态治理技术名称,生态治理技术的实施时间、实施的地理位置等。这将在传统基于文献的情报分析研究的基础上增加文本内容的分析维度,是情报研究方法的创新。  近几年,深度学习在自然语言处理领域得到了快速发展,命名实体识别也从最早的基于词典和规则、以及传统机器学习方法,转向了深度学习的方法,但仍存在一些亟待解决和改善的问题,包括:神经网络自身结构有待改进以更好适应研究问题,带标注训练数据的缺乏制约模型效果,忽略了对外部资源和领域知识的整合利用等。针对这些不足,本文提出了一种基于Bi-LSTM+CRF的命名实体识别方法,主要包括以下研究内容及结论:  (1)Bi-LSTM+CRF神经网络模型。本研究构建了一种基于双向LSTM结合CRF的神经网络模型,包括如下步骤:①使用Word2Vec获得初始词向量;②将词向量输入传到双向LSTM神经网络对每个词的上下文信息进行建模;③在Bi-LSTM神经网络的输出端,利用连续的条件随机场CRF对句子进行标签解码,并标注句子中的实体。相较于传统的机器学习方法,此方案基于统计概率学,并能够利用词汇上下文依赖关系,应用场景更广泛。  (2)优化Word2Vec初始词向量。初始词向量是神经网络模型的重要输入,而词向量的效果与语料的领域和规模密切相关。本研究通过将训练文献的题录数据和相关领域的命名实体知识库数据组合投入Word2Vec进行训练,使模型性能(F1值)提升0.3064。  (3)构建了生态治理技术实体标注的知识库。梳理归纳了生态治理的时间、地域、生态治理技术在文本中的形式特征,并手工标注了三类实体共计116526条,作为后期神经网络学习的种子,也是该领域相关技术的知识库。将其中的97322条实体作为训练语料投入模型,在效果较好的词向量基础上增加训练语料,系统性能(F1值)提升0.0595。  (4)应用抽取结果分析相关文献。将模型抽取得到的实体应用在生态治理相关文献的时间分布、地域分布和技术主题聚类的分析中,验证了本研究中模型的实体识别的效果,以及抽取实体开展生态治理技术领域相关活动分析方法的可行性。
其他文献
在互联网大数据时代,信息以前所未有的速度剧增,给情报人员带来了前所未有的挑战,促使情报分析和处理对象日益向着精细化方向发展。实体是细粒度的知识单元,是情报处理的基本单元
农村社区图书馆(室)是整个图书馆体系中重要的一环,也是农村文化建设中不可缺少的一部分。云南地处边疆,集边境、民族、山区、贫困于一体。最近几年,随着全省经济的快速增长,社会
期刊
采用神经电生理学与运动心理学相结合的方法,记录安静状态、运动表象、过度换气诱发试验和恢复期的脑电信号,对我国14名健将级优秀女子射箭选手的赛前脑电地形图指标进行了分
新年伊始,本刊的改版“产品”——《图书情报工作》(文中简称《工作》)2009年第1期(半月刊)已呈现在大家面前。“产品”质量究竟是优还是劣,是好还是坏,任有读者来检验。我们
以上海城市中心图书馆为主要案例,分析城市总分馆及一卡通服务发展中面临的采访编目标准化,物流配送社会化,网络服务规范化,通借通还一体化,人力资源专业化,组织文化行业化,
结合厦门市图书馆总分馆建设实践,介绍直管型、托管型、联办型和加盟型等4种分馆建设模式及其优劣,并对总分馆建设实践进行思考,提出推进公共图书馆网络建设要发挥政府的主导
以东莞构建城市图书馆服务体系的实施战略、实施过程和实施效果为例,探讨图书馆集群化管理的理论与总分馆制的实现方法,以期为正在发展的城市图书馆服务体系建设提供参考.
学术文献中蕴含了大量具有学术价值的核心知识点,对学术文献中的核心知识的抽取有利于学术知识的利用。本文针对学术文献的结构和语言使用的特征,提出了一套基于句法分析的文献
通过嘉定区图书馆作为上海市中心图书馆分馆在参与上海市中心图书馆建设过程中工作开展的情况,阐述作为城市区级图书馆在中心图书馆建设中如何依托中心图书馆网络体系,不断完