面向林业文本的关键信息抽取研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:hzbhwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,林业相关部门在日常活动和信息化建设的过程中产生大量有价值的数据信息。但是,对于网络上分布的海量林业文本来说,主要存在以下两个特点:一是文本数量多,分散程度高,类别区分度差;二是较大规模的文本没有统一的记述结构,信息抽取难度高。因此,本文研究的内容是如何准确地从林业文本中将有价值的信息抽取出来,目的在于挖掘林业文本中有价值的信息,从而使文本的利用程度达到最大化。信息抽取技术主要分为监督算法抽取和无监督算法抽取,有监督算法标注成本高易存在过拟合现象,所以近年来无监督算法逐渐成为研究的热点。现有的无监督算法在信息抽取方面存在以下不足:一是抽取的文本信息主要从关键词角度考虑,忽视了词语的信息类型,且关键词在综合词语的特征方面存在不足;二是文本类别区分度低,缺少针对某类文本进行统一的关键信息抽取的方法。围绕以上问题的解决,本文开展了以下三个方面的研究工作:1)从词语的词频-逆文档频率特征、长度特征、词跨度特征等5类特征考虑,优化关键词的抽取公式;2)提出基于注意力机制的胶囊网络文本分类模型,用以对林业文本分类,并提出基于文本内容的文本类别标签向量的构建方法,用以提高分类效果;3)针对类别明确的同类林业文本,从“关键词+信息类型”两个方面考虑,提出了完整的关键信息抽取流程。本文以10000篇林业文本为实验数据,共计5个类别,每个类别各400篇文本,用以训练文本分类模型和构建词语的信息类型集合;以标注好关键词的400篇林业文本为实验数据,探究关键词抽取公式的抽取效果。实验结果表明:1)本文提出的融合词语多种特征的关键词抽取公式在抽取效果上优于其他抽取算法,抽取结果在准确率、综合评价指标、平均倒数等级、二元偏好度等四项指标均为最优,召回率排名第二;2)本文提出的分类模型在分类效果上优于其他模型组合,分类准确率为95.07%,召回率为92.96%,综合评价值为94.00%;3)提出的关键信息抽取流程在抽取的内容上具有很好的代表性,并且经合理探究对流程技术中涉及的参数进行确定,其中构建单个文本的图结构时阈值设置为0.4,对各文本的图结构归并聚类时阈值设置为0.5,进行簇过滤时λ1设置为0.7,λ2设置为0.3。综上,本文的研究内容能够在林业文本的关键信息抽取工作方面产生积极影响。
其他文献
新型网络环境在云计算(Cloud Computing)等新型计算模式的推动下快速发展,并成为各类产业应用的关键基础设施。具体而言,海量数据不断地从物联网终端聚集到云服务器,推动了基
云计算技术是分布式计算、并行计算、网格计算等概念的发展与跃升,用户可以通过按使用量付费的方式快速、便捷、灵活的访问云平台上无尽的计算与存储资源。由于用户的数据被
随着云计算和物联网的快速发展,全球的数据规模呈现爆炸式增长,大数据时代随之到来。由于云具有强大的存储和计算能力,越来越多的数据拥有者开始把他们的数据存储和管理外包
随着城市化进程的加快,城市出行发展所产生的交通拥堵等问题也变成社会飞速发展的阻碍。对城市出行的交通流和车道占用率进行研究预测,不仅可以反映城市建设的资源使用问题,
目前,随着人工智能技术的发展,理性智能体的单体以及协同工作成为越来越多的专家学者所研究的热点,其中理性智能体的BDI结构的研究受到广泛关注。传统智能体BDI研究多数侧重
随着计算机技术的发展,人脸识别技术已经逐渐应用到人们的日常生活中。目前已经有非常多的识别方法被提出,其中基于稀疏表示的识别具有其独特的优点,比如对遮挡和腐蚀的干扰
土地生态学是要研究土地生态系统能量流动、物质循环等基本规律,并在此基础上规范人们利用土地的行为。换言之,土地生态学研究应为我国目前与将来的土地利用提供科学理论与有
会议
移动互联网以及物联网的迅猛发展给人们的生活带来了深刻的变革,同时也给传统的信息安全技术带来了新的挑战。身份认证是保障信息系统安全的第一道防线,如何对用户的身份进行
随着计算机和互联网应用技术的快速发展,数字媒体在人们的日常生活中得到了日益广泛而深入的应用,这些通过公开网络传输的数字媒体信息极易遭到非法拦截、篡改和攻击,如何保
机动目标跟踪一直是目标跟踪领域中的难点问题,尤其是对多机动目标跟踪。由于目标数的变化,目标新生和消失,以及目标相互紧邻、交叉等复杂场景,使得跟踪变得更加困难。针对该