论文部分内容阅读
互联网时代,信息爆炸,全球一体化,使信息的来源、数量和形式发生了根本的变化。如何用智能化的手段处理网上的海量文本信息已成为一个十分紧迫的问题。将信息转变为知识、将信息基础设施发展为知识基础设施是二十一世纪的重要科研方向,旨在实现“在恰当的时间,以恰当的语言、恰当的粒度,将恰当的信息提供给恰当的人们”的目标。当前最热门的领域之一是“文本挖掘”,即从巨量的非结构化文本中抽取信息。这就为文本知识获取提出了新的挑战和迫切需求。本文主要针对领域概念获取、领域概念上下位关系学习、描述流提取、领域个体知识获取的方法,以及它们在考古领域中的应用,开展了如下几个方面的研究工作: (1) 一种提取领域概念的混合式方法。目前,在信息检索、文本分类、主题跟踪和探测等文本处理和分析任务中,通常是以“词”作为特征项的。然而这些词并不一定能忠实地表达文本的内容、类别和主题。这一问题在处理领域文本时显得尤为突出,已经阻碍了文本处理任务的发展。领域概念首先是一个词,并为实体概念、或性质概念、或关系概念。领域概念能够更加准确和忠实地表达文本的内容。本文的混合式方法融汇了规则、统计、句法和语义信息来识别概念。该方法首次引入主动词和语义角色识别来提取领域概念,提出了基于语料学习的主动词识别方法,设计了主动词和面向知识获取的语义模型驱动的语义角色识别方法。通过与分词系统实验结果相比,验证了该方法的有效性。(2) 多策略的领域概念上下位关系学习方法。领域概念上下位关系学习是指基于已构建的上下位关系概念对来学习未知的上下位关系概念对。本文提出了三种学习策略:种子上下位关系概念对驱动和并列语境启发的学习方法、基于上下位关系语境的学习方法,以及领域概念构词法驱动的学习方法。前两种方法是根据上下位关系概念对所处的上下文来提取的,第三种方法是根据概念的内部构成规律来提取的。这些方法是由学习Agent来完成的,它由已知知识、学习条件和获取知识三部分构成,采用框架和一阶逻辑表示,因此学习Agent具有良好的扩展性。(3) 一种领域本体驱动的描述流提取方法。通过信息检索、文本分类和主题检测和跟踪等文本处理和分析等任务,我们能够了解文本的内容。但是,我们仍然难以知道文本描述了主题的哪些方面以及它们的描述顺序。因此,我们提出了一个新的文本分析任务——描述流提取。描述流是指文本的主题、主题的描述方面以及它们出现的偏序关系。本文采用了一种领域本体驱动的描述流提取方法,描述流提取是为领域个体知识获取服务的。通过实验验证了该方法的可行性。