军事领域中文术语抽取的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:andymei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语是有效描述领域知识的基本语言单元,通常由词或词组组成。在文本中自动获取特定领域术语的过程称之为术语抽取。它是信息处理领域的一项重要技术,在自然语言处理、文本挖掘、本体构建、词典编撰、机器翻译等领域都有着广泛而重要的应用。自动术语抽取对于了解掌握领域知识的变化发展起着重要作用。在众多的领域术语之中,军事术语是一种相对特殊的领域术语,实现军事术语的自动抽取不仅可以获取和扩充军事领域知识,更重要的是可以大量减少人工采集、处理数据信息的成本,能够使我们将主要精力放在深层次的情报分析工作中,因而军事领域术语抽取具有重要的国防和军事价值。本文围绕军事领域的中文术语抽取任务展开讨论,结合实际工作对军事术语的组成结构及特点进行了详细的介绍。在分析比较几种常见的统计机器学模型的基础上,采用目前主流的条件随机场(Conditional Random Fields, CRF)模型对军事领域中文术语进行抽取,最终得到的精确率、召回率、F-值分别为72.83%,71.81%,72.05%。而后,为了降低该方法对于大规模语料库和标注人员的依赖性,尝试了基于无监督统计量的术语抽取方法,分析研究了信息熵、互信息、C-value三种统计量对于术语抽取结果的影响,通过实验得到的F-值最高为20.68%。最后,通过实验对比,总结了两种方法的优缺点,实验证明,基于CRF的术语抽取方法简单可行,实验结果良好。
其他文献
油脂是人体不可或缺的营养要素,其色泽是油脂质检中比较重要的一项指标,油脂色泽的检测对提高油脂质量起着举足轻重的作用。近年来,对油脂颜色测量的方法有很多,包括目视法、分光光度法、光电积分法等,但是基于自动化和检测成本来考虑,设计一款能够实现自动化、测量准确、价格低廉的油脂颜色测量仪是非常有必要的。本课题首先针对罗维朋目视比色计操作繁琐、劳动强度大,存在人为误差,进口比色计价格昂贵等问题,提出课题需要
在线购物已经成为日常生活中一种基本的消费模式。在此环境下,网络评论由于包含已有用户对现有商品所持的观点,因而能够为其他潜在的客户在确定购买决策时提供重要的参考价值。
现存的分布式网络安全系统中,使用入侵检测系统与防火墙联动机制能有效阻止黑客攻击,但是随着网络病毒攻击和黑客攻击方式的“集成化”,现存的网络安全系统暴露出严重的安全问题
分类是数据挖掘和机器学习领域中的重要技术,已有分类算法大多通过重复计算数据集来提高分类准确率,然而这是以降低计算效率为代价的。为了在提高分类准确率的同时降低计算代价
数字浮水印的出现使原创图像、音视频等信息的保护更加便捷。基于人类视觉系统(HVS)的浮水印既能满足浮水印强健度的需求,又能保证优秀的图像质量,因此被广泛应用。恰可察觉失
随着网络通信量的急剧增长,传统IP网络的传输方式已经不能满足通信要求。为了解决IP网中的问题,提出了下一代通信网络技术。向量网结合现有网络技术和下一代网络通信技术提出
快速计票系统作为一种将纸质评选票与数字图像处理技术完美结合的新型计票方案,可以有效解决传统人工计票方式正确率低、时效性差等问题。然而,基于传统软件开发方式的快速计
随着社交平台和移动互联网的普及,微博逐渐成为人们分享和获取信息的主流平台之一。特别是近年来国内外重大事件,大量一手资讯都先出现在微博网络。微博网络内信息能够快速传播
无线通信和移动数据库的快速发展,使得移动用户在任何时间、地点查询任意信息的设想成为可能,同时也促进了基于位置服务的应用发展。尽管基于位置的服务和定位技术为移动用户提
随着大数据时代的到来,图作为表示数据之间关系的基本结构,由于其处理复杂对象之间关系的表达能力,在社交网络、软件工程、生物数据等领域有着广泛应用。查询及分析图结构数据变