论文部分内容阅读
领域本体的建造与进化是近年来的热点问题之一。从哲学和逻辑学的角度看,本体的实现是自莱布尼茨以来许多科学家的梦想,它基于这样一种思想:如果我们能建立一个符号系统,系统中的元素表示的都是概念、范畴,那么我们仅凭符号演算,就可以确定用这个符号系统写成的句子的意义为真或者为假。人们期待本体在人工智能中能够发挥重要作用,从目前的情况看,本体也确实已经在数字化图书馆建设、信息检索等各方面起着越来越重要的作用了。人类知识的全部本体由一个个小的本体构成,领域本体是其中最重要最基本的子集之一。
本项研究针对领域本体进化中两个基本问题:术语提取和术语层次关系提取,全面考察了术语的相关语言学规律,尤其提出了如何将语言学规则与统计方法相结合,如何在相关任务中应用更细粒度的知识提高效率,如何从语言学背景出发,为机器学习选取更适宜的语言学特征等。本文的上述研究不仅有益于本项任务的探索,也会对其他相关研究奠定良好基础。在研究过程中取得如下创新成果:
1)知识颗粒度的细化和相关语言学特征的抽取,是与算法同等重要的内容,如何获得和应用更加细粒度的知识,如何挖掘出更有效的语言学特征,是数据挖掘中不可忽视的问题之一。基于作者的语言学背景,本文对术语提取和术语层次关系提取中所涉及的语言现象,进行了详细的描写和分类。本文第一次对单词术语从语法和语义上进行分类和特点描述,对双词和三词的术语语义组合模板进行了标注与统计,并细致深入的考察了术语层次关系在语法和语义不同层面上的特点、分布和表现,从而为进一步进行术语提取和术语层次关系提取奠定了基础。
第三章和第四章主要显示了细粒度语言学知识对于达成目标的帮助,第五章和第六章主要显示了按照语言学的整体框架,从语法和语义两个平面,针对具体问题,抽取出合适的语言学特征对于达成目标的帮助。
2)提出了术语部件语义模型,并对术语部件库进行了语义标注。
本文在已有的部件库成果基础上,设计了与本体一致的术语部件语义模型,并对术语部件进行了语义标注。扩展后的术语部件库在术语提取和术语关系提取中都发挥了重要作用,具体来说,体现在以下几方面:
①在多词术语提取中,通过术语部件库获得双词术语和三词术语的常用语义模板,有效的提高了双词和三词术语识别效率;
②在基于模式识别的层次关系提取中,通过部件的语义类别,利用汉语的命名规律,可推导出术语的语义类别,以确定下层术语;
③在基于概念格的层次关系提取中,依靠术语部件库中对一个术语是否是领域动词或属性词进行判断,领域动词是构成术语内涵的重要元素。
3)提出了将中文信息处理中常用的统计+规则的方法用于本体进化技术。
本体进化是一项新兴的研究课题,从哪里入手,怎么研究,都还在探索中。本文从术语学的角度出发,提出术语提取和术语层次关系提取是基于数据驱动的本体进化中的两项重要任务,并采用中文信息处理中常用的统计+规则的方法,从语言学视角和分析出发,分别选用了基于语料库比较的方法、互信息、ADTree和FCA数学模型,初步实现了目标。
本项研究所积累的资源也是重要的成果,可以对今后的相关的或更进一步的术语研究提供支持。例如,术语部件语义模型、用该语义模型标注的术语部件库以及多词术语语义组合模板,术语部件库的自动、半自动扩展技术,表示偏序关系的语法和语义模式等。所有的资源、技术技术及实验结果都可供未来的研究参考。