中文本体构建平台开发及关键技术研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:cq2427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机应用和网络技术的不断发展,信息资源越来越丰富,如何对信息与知识进行有效的组织和管理,以便于信息与知识的共享和利用成为一项迫切而重要的研究课题。本体是一种能对语义和知识进行描述的概念模型,其目的在于以一种通用的方式来描述指定范围内的知识,提供对领域中概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重利用。 本文的研究重点在本体构建平台的开发,以及本体自动构建相关技术的研究上。本体的构建平台为对本体的编辑操作提供了可能。当前,在中国还没有相应的中文本体构建平台出现。但是,国外已经有了不少比较优秀的本体构建平台,如Protege、OntoEdit等。软件行业的一个很重要的概念就是“重用”。因此在本体构建平台的开发中,本论文直接对国外开源本体编辑平台进行相应的调整,如界面定制、数据转换等,使其适用于中文本体编辑的需要。 在搭建了本体构建平台的基础上,本论文进一步研究本体自动构建的相关关键技术。本体自动构建所要提取的基本知识有两个:领域术语和领域术语之间的相互关系。本文的重点是研究如何从文本中自动识别术语之间的相互关系。本文首先介绍了一种提高基于规则的方法在稀疏语料中性能的方法。实验表明这种方法较为成功地解决了在建立计算机领域本体时所出现的问题。然后,本文介绍了一种利用标注的序列模式(Labeled Sequential Patterns,简称LSP)来提取关系的方法。这种方法是是对基于统计的方法和基于模式的方法的综合。实验证明,这种方法既有统计方法的高性能又有规则方法的低代价。另外,论文作者通过分析发现,关于术语提取以及术语关系提取的研究一直以来都是相互分离的。在当前的研究中,对于术语的提取,很少有方法用到术语之间的关系信息。而对于关系的提取,一般的提取过程都是首先标注语料中的术语,然后才利用各种方法来发现这些术语之间的相互关系。本文最后介绍了一种将这两个问题进行整合与互动的方法,并将这种方法应用到两个不同的领域。实验表明,这种方法不仅提高了关系提取的性能,也对术语的提取有所改善。
其他文献
分辨率的提高与压缩技术的进步,使得数字视频和图像处理应用对高性能的需求也与日俱增。同时还需要保持架构的灵活性,以获得快速升级的能力。此外,技术的成熟以及需求的增加要求
数据挖掘在人工智能的研究中具有重要地位。传统的数据挖掘研究一般基于理想环境进行,即数据是完整的,类别是均衡的。但在现实世界中环境是非确定性的,即数据中普遍含有噪声,
决策树方法是一种广泛使用的用于分类的方法,它通过一组无次序,无规则的实例推理出决策树表示形式的分类规则,从而找到一些有价值的、潜在的信息。本文通过对数据集和决策树
随着医疗卫生事业的发展,在临床医疗活动中的药物使用问题逐步成为公众关注的焦点。世界卫生组织指出在地球上每年死亡的人群中有740万人不是由于自然衰老或疾病的原因死亡,而
学位
电子支付是电子商务的核心,直接影响到电子商务的发展速度和范围。目前已有的电子支付方式中,电子现金是一种新兴的,极具潜力的支付方式。电子现金具有现实货币的特性,具有匿
随着集成电路制造工艺的进步和微处理器设计技术的发展,单发射按序执行处理器表现出强劲的生命力,不仅在嵌入式计算领域得到日益广泛的应用,而且代表了高性能计算领域微处理器设
流数据无处不在,股票交易记录、网络流量、传感器网络中的数据、web日志都是其中典型的例子。此外,航天、音乐、医学等领域也存在着大量的数据流应用。在这些应用中,数据量都非
数字签名作为一种保障信息安全的有效手段,可以保证信息完整性、鉴别发送者身份真实性及其签名不可否认性,同时还具有加密的功能。正是由于这些功能,数字签名被广泛应用到网
模型是对现实世界的抽象。模型包含系统的主要元素而忽略那些与给定抽象层次不相关的次要元素,从而既能保证模型反映了系统的主要特性,而又不至于使模型过于复杂而难以理解和把
呼叫中心(Call Center)是一种建立在现代通信网络基础上的客户呼叫处理系统。随着呼叫量的增多以及客户多样性的需求,传统呼叫中心已不能满足客户的需求,IP呼叫中心应运而生,