基于本体的作战文书分词的关键技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:xds24
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“信息化”军事作战时代的到来,单纯人工处理海量的作战文书已经远远不能满足信息提取的快速性和正确性的要求,那么人们希望计算机能像人脑一样具有“逻辑思维”并且“理解”作战文书的内容。众所周知,作战文书是由连续的、没有分隔符的中文字符串组成的,而计算机理解功能的最底层处理单位是词,因此对作战文书进行分词是关键性技术,这一步骤处理的正确与否直接影响对作战文书的后续处理——词性标注、语法分析、关键信息提取、地图的态势标注等,甚至可以决定作战文书理解的成败。因此,对于作战文书的分词研究是一项重要的课题。本文针对作战文书的记述特点,进行的主要研究工作和取得的成果如下:(1)详细介绍了中文分词理论和应用系统的发展历程,并论述了进行作战文书分词研究的重要性和必要性。(2)主要从基于单字和基于词的两种不同类别概述了汉语分词技术的理论研究,并且分析了应用在常见分词系统中的分词算法,通过分析,明确了歧义问题和新词识别是阻碍中文分词技术发展的两个关键问题。(3)鉴于作战文书的格式及其内容的多样性,引入具有语义关系的本体技术,利用OWL本体描述语言来描述本体,同时,采用斯坦福大学开发的Protégé软件来构建军事领域本体,用具有高度概括性和逻辑推理性的军事领域本体来代替传统的分词词典,从而实现概念的推理和共享。(4)提出了一种基于本体的正向和逆向最大匹配的作战文书分词算法。首先,针对作战文书的类别及其自身特有的用词规范,构建了一系列的提取规则,包括日期、地名、部队名称和专有名词提取规则;第二,结合作战文书本体、提取规则、词典,分别利用正向和逆向最大匹配算法进行作战文书切分;第三,对切分过程中出现歧义的字段,利用军用领域本体的语义相关性和上下文相关度处理,最终得到一种合理的分词结果。(5)设计并实现了一个作战文书分词软件原型系统。该系统主要包括三个模块:预处理模块、分词模块和歧义合成模块。基于评估分词的指标,对比分析了本分词系统与中科院的分词系统ICTCLAS、哈工大的分词系统的分词结果,验证说明了本文方法对于作战文书分词具有较好的效果。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
介绍了汽车驾驶模拟器仪表驱动系统的设计方案和实现方法,水温表和油量表采用仪表驱动引脚与地之间串接电阻的方法进行驱动,时速表和发动机转速表采用单片机输出频率信号驱动,在
本文分析并提出了在雷达信号处理中常用到的二值滑窗检测器的最佳门限的准定公式,并介绍了利用ROM变换法实现二值滑窗检测器的基本原理。该方法实现具有简单、运算速度快、体
王夫之诗论的哲学立场是性情论和理气论。性情论明确规定了"情"的内涵,用"性"来约束"情",确立了诗学上的"正情"说,并为"情景论"中的"情"提供了理论支持;理气论则以"理-气-形"的逻辑理路,"理""
目的:观察迷迭香提取物对D-半乳糖所致亚急性衰老模型小鼠的抗衰老作用。方法:雄性小鼠连续6周皮下注射D-半乳糖1mg/g·d制备小鼠衰老模型。造模同时以迷迭香提取物灌胃,检
一、借助引言 ,说明特点“同学们 ,通过前面几章的学习知道 ,地球在结构上有一显著特点 ,这就是圈层构造 ,即从地心向外 ,可以把地球分成若干同心圈层。如以地球表面为界 ,可
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
混凝土是我国建筑材料重要组成部分。自混凝土问世以来,大大增强建筑硬度、承载力等性能,为民众提供更优质生活。因此,建筑工程混凝土质量得到相关检测部门重视,部分技术人员
[目的]探讨不同盐胁迫生境中接种根际促生细菌(PGPR)对白蜡树根际的作用效果,为明确PGPR对白蜡树耐盐性的改善效果以及盐胁迫环境下PGPR的推广应用提供理论依据。[方法]通过盆栽
温泉作为一种珍贵的自然资源,其旅游功能的开发,在改善生态环境、提高人们生活质量、促进地方经济发展方面起到了明显的作用。武汉城市圈内温泉资源分布广泛,搞好温泉旅游资源的