论文部分内容阅读
随着“信息化”军事作战时代的到来,单纯人工处理海量的作战文书已经远远不能满足信息提取的快速性和正确性的要求,那么人们希望计算机能像人脑一样具有“逻辑思维”并且“理解”作战文书的内容。众所周知,作战文书是由连续的、没有分隔符的中文字符串组成的,而计算机理解功能的最底层处理单位是词,因此对作战文书进行分词是关键性技术,这一步骤处理的正确与否直接影响对作战文书的后续处理——词性标注、语法分析、关键信息提取、地图的态势标注等,甚至可以决定作战文书理解的成败。因此,对于作战文书的分词研究是一项重要的课题。本文针对作战文书的记述特点,进行的主要研究工作和取得的成果如下:(1)详细介绍了中文分词理论和应用系统的发展历程,并论述了进行作战文书分词研究的重要性和必要性。(2)主要从基于单字和基于词的两种不同类别概述了汉语分词技术的理论研究,并且分析了应用在常见分词系统中的分词算法,通过分析,明确了歧义问题和新词识别是阻碍中文分词技术发展的两个关键问题。(3)鉴于作战文书的格式及其内容的多样性,引入具有语义关系的本体技术,利用OWL本体描述语言来描述本体,同时,采用斯坦福大学开发的Protégé软件来构建军事领域本体,用具有高度概括性和逻辑推理性的军事领域本体来代替传统的分词词典,从而实现概念的推理和共享。(4)提出了一种基于本体的正向和逆向最大匹配的作战文书分词算法。首先,针对作战文书的类别及其自身特有的用词规范,构建了一系列的提取规则,包括日期、地名、部队名称和专有名词提取规则;第二,结合作战文书本体、提取规则、词典,分别利用正向和逆向最大匹配算法进行作战文书切分;第三,对切分过程中出现歧义的字段,利用军用领域本体的语义相关性和上下文相关度处理,最终得到一种合理的分词结果。(5)设计并实现了一个作战文书分词软件原型系统。该系统主要包括三个模块:预处理模块、分词模块和歧义合成模块。基于评估分词的指标,对比分析了本分词系统与中科院的分词系统ICTCLAS、哈工大的分词系统的分词结果,验证说明了本文方法对于作战文书分词具有较好的效果。