论文部分内容阅读
信息爆炸时代需要一个能在海量信息中高效筛选信息的工具,基于本体的信息整合就是解决这一难题的出路。信息系统之间往往由于结构异构、语法异构、系统异构、语义异构等原因,使得系统间的信息资源难以共享和重用。解决上述问题只能是引入本体,才能实现信息整合。 基于本体的信息抽取、整合系统主要有四大组成部分:类库、知识库、处理子系统、数据黑板。类库是本系统处理的基础,它负责提供处理需要的各种基本操作;知识库包括词典、文本分类知识库、对象判定知识库、信息抽取知识库,它是系统进行各项处理的基础;数据黑板是本系统的所有分析数据的汇总,为系统的各项处理提供服务;处理子系统完成系统的各项功能,它由依次相连的七个模块组成:分词、文本分类、对象判定、查元记忆、信息抽取、信息整合、信息存储。 本体是知识的概念模型。构建本体的目的是为了知识的表示、共享和重用。在面向自然语言理解的各种知识库的建设过程中,本体论都是无法回避的。四项著名的本体论项目Cyc、WordNet、知网、HNC为自然语言理解和机器翻译等方面的研究提供了宝贵的资源。OWL作为W3C推荐的Web本体标准语言,具有强大的语义表达能力,在人工智能领域得到广泛应用。本文尝试构建了军备情报这一领域知识的本体。 汉语自动分词面临着两大难题:歧义字段和未登录词。这两者的相互纠缠使分词系统所面临的形势更加复杂化。汉语词典的快速查询是整个处理系统效率的关键所在。基于三数组 Trie索引树的词典查询机制由于采用了由短词及长词的确定性工作方式,避免了整词二分查询机制中不必要的多次试探性查询,效率极高。本文开发的基于三数组Trie索引树的分词算法处理效率也极高。 基于机器学习的文本分类系统分为两个相对独立的模块:训练模块和分类模块。训练模块是利用训练文本集完成分类规则的获得,从而建立起分类器;分类模块则在分类器建立后利用分类器对测试文本进行分类处理。文本表示主要采用向量空间模型,而向量的维数巨大,需要对文本进行特征筛选。本文综合利用文档频次、词频和互信息来构造评估函数进行特征筛选,并使用K-近邻算法对文本进行分类,实验结果令人满意。 对象判定技术以命名实体识别为基础,比较文章内的所有命名实体,从而筛选出最主要的一个或几个命名实体。人们判定文章的讨论对象的主要依据有:标题中的、介引句中的、每段首句中的命名实体。本文的对象判定系统采用规则和统计相结合的方法,来模拟人们日常阅读中的智力活动,实现了对象判定。但目前该系统尚不具备对多讨论对象的文章进行对象判定能力。 信息抽取系统的主要功能是从文本中抽取出特定的信息。本文的基于关键词驱动的信息抽取系统由知识库、处理程序、数据黑板三部分构成。其本质上是基于规则的信息抽取系统,而信息抽取规则是一种产生式规则:条件→操作,即如果句法语义模式匹配成功,则从句中抽取相应的信息。笔者设计出了能满足信息抽取实际需要的信息抽取规则描述语言,保证了系统具有较好的可移植性。本系统采用绝对定位和相对定位相结合的方法来实现测试位置的推移,满足了测试规则的需要。 基于本体的信息整合采用的是整体-局部法,先构造领域知识的全局本体,并以对象为中心组织信息,然后再抽取、整合信息,因而在技术上就表现为将同一对象的新信息整合进旧信息的过程,并最终演变成对同一对象的同一属性值进行整合的过程。对象的属性值可以分为两类:数量结构和非数量结构。数量结构的属性值在整合时,首先需要进行数和量的标准化。目前,非数量结构的属性值在整合时只能采用机械的字符串匹配方式。 最后,本文综合集成以上的各项技术,开发出了一个能在一定程度上真正在语义层面上实现信息整合的信息整合系统。