面向领域本体进化的术语提取及术语层次关系发现

来源 :北京大学 | 被引量 : 0次 | 上传用户:darkblueangel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
领域本体的建造与进化是近年来的热点问题之一。从哲学和逻辑学的角度看,本体的实现是自莱布尼茨以来许多科学家的梦想,它基于这样一种思想:如果我们能建立一个符号系统,系统中的元素表示的都是概念、范畴,那么我们仅凭符号演算,就可以确定用这个符号系统写成的句子的意义为真或者为假。人们期待本体在人工智能中能够发挥重要作用,从目前的情况看,本体也确实已经在数字化图书馆建设、信息检索等各方面起着越来越重要的作用了。人类知识的全部本体由一个个小的本体构成,领域本体是其中最重要最基本的子集之一。 本项研究针对领域本体进化中两个基本问题:术语提取和术语层次关系提取,全面考察了术语的相关语言学规律,尤其提出了如何将语言学规则与统计方法相结合,如何在相关任务中应用更细粒度的知识提高效率,如何从语言学背景出发,为机器学习选取更适宜的语言学特征等。本文的上述研究不仅有益于本项任务的探索,也会对其他相关研究奠定良好基础。在研究过程中取得如下创新成果: 1)知识颗粒度的细化和相关语言学特征的抽取,是与算法同等重要的内容,如何获得和应用更加细粒度的知识,如何挖掘出更有效的语言学特征,是数据挖掘中不可忽视的问题之一。基于作者的语言学背景,本文对术语提取和术语层次关系提取中所涉及的语言现象,进行了详细的描写和分类。本文第一次对单词术语从语法和语义上进行分类和特点描述,对双词和三词的术语语义组合模板进行了标注与统计,并细致深入的考察了术语层次关系在语法和语义不同层面上的特点、分布和表现,从而为进一步进行术语提取和术语层次关系提取奠定了基础。 第三章和第四章主要显示了细粒度语言学知识对于达成目标的帮助,第五章和第六章主要显示了按照语言学的整体框架,从语法和语义两个平面,针对具体问题,抽取出合适的语言学特征对于达成目标的帮助。 2)提出了术语部件语义模型,并对术语部件库进行了语义标注。 本文在已有的部件库成果基础上,设计了与本体一致的术语部件语义模型,并对术语部件进行了语义标注。扩展后的术语部件库在术语提取和术语关系提取中都发挥了重要作用,具体来说,体现在以下几方面: ①在多词术语提取中,通过术语部件库获得双词术语和三词术语的常用语义模板,有效的提高了双词和三词术语识别效率; ②在基于模式识别的层次关系提取中,通过部件的语义类别,利用汉语的命名规律,可推导出术语的语义类别,以确定下层术语; ③在基于概念格的层次关系提取中,依靠术语部件库中对一个术语是否是领域动词或属性词进行判断,领域动词是构成术语内涵的重要元素。 3)提出了将中文信息处理中常用的统计+规则的方法用于本体进化技术。 本体进化是一项新兴的研究课题,从哪里入手,怎么研究,都还在探索中。本文从术语学的角度出发,提出术语提取和术语层次关系提取是基于数据驱动的本体进化中的两项重要任务,并采用中文信息处理中常用的统计+规则的方法,从语言学视角和分析出发,分别选用了基于语料库比较的方法、互信息、ADTree和FCA数学模型,初步实现了目标。 本项研究所积累的资源也是重要的成果,可以对今后的相关的或更进一步的术语研究提供支持。例如,术语部件语义模型、用该语义模型标注的术语部件库以及多词术语语义组合模板,术语部件库的自动、半自动扩展技术,表示偏序关系的语法和语义模式等。所有的资源、技术技术及实验结果都可供未来的研究参考。
其他文献
随着信息化建设在企业内部不断的发展和深入,越来越多的信息系统投入运行。而在企业中成功实施的信息系统常注重于解决某一个具体问题,在独自领域内运行,形成了众多的信息孤岛,信
进入深亚微米(或纳米级),等比例缩小虽然使晶体管的工作速度得到了提升,但也带来了诸多负面影响.互连线延迟、串扰、电压降/电迁移、良率已成为大规模集成电路物理设计的主要
超节点P2P(Super—peerP2P)结合了P2P结构和C/S结构的优点,是当前应用最广的一类P2P系统。如何利用超节点P2P系统中角色的不同,特别是超节点的一定管理功能,来提高系统的整体性
图像的观测颜色被认为是物体前景颜色按照其不透明度信息和背景颜色的叠加。图像抠图就是从观测图像提取出前景颜色和不透明度信息。它在图像特效制作、虚实场景结合、基于图
学位
随着通信技术的迅猛发展,行业竞争日益加剧,运营商急需设计和建设高效稳定的业务运营支撑系统来提升企业的服务质量以及经营管理水平,从而进一步提高在市场中的竞争能力。本
本文提出了一种IPv4、IPv6混合网络下基于协议转换的安全网关设计,并基于Linux 2.6内核下的Netfilter框架以内核模块的形式实现了基本功能。安全网关被设计为部署在IPv4、IPv6
随着Internet在企业领域应用的不断深化,VPN(虚拟专用网,Virtual Private Network)作为一种廉价安全的组网方案越来越受到中小企业的关注。这些企业有其自身的特点,并不能完
随着规模的扩大和复杂度的提高,软件变得越来越难以控制。采用容错、复用等技术并不能从根本上消除软件中的缺陷。软件安全已成为信息技术研究的热点之一。研究软件安全保护方
遗传算法自上世纪诞生以来,迅速运用到复杂科学计算、工程计算、资源调度、业务优化、时间表等复杂问题的求解上。这些传统难题的症结在于构建的数学模型非常复杂,需要用到积分
手机游戏作为一个新兴产业,通过将高新技术转化为现实生产力,在我国产业结构升级进程中扮演了重要角色。虚拟道具销售是手机游戏收益的主要来源。考虑到手机游戏用户大多为业