论文部分内容阅读
多词表达是自然语言处理中的难点,它是一种由若干词汇组成的语义单元,但其句法与语义属性并不能显式地由其构成词汇给出。经典的自然语言处理系统通常假设每个词汇为一个语义单元,这并没有包括多词表达在里而,多词表达跨越词汇边界,因而有其特殊的解读方法。识别和应用多词表达是研究者在这个领域的主要关注点,同时也被认为是进一步研究的瓶颈。近年来多词表达被单独提出来作为一个专门的主题来研究。本文的工作分为多词表达的抽取与应用两方面。首先针对单语与双语的特点提出了一套适合处理松散结构类型多词表达的抽取方法,该方法是受生物信息学中基因比对算法的启发,提出的抽取模型结合了自然语言自身特性以及机器学习方法。在多词表达的应用上,把多词表达作为词义消歧的一种知识资源,利用资源与算法的瓦相作用来提高词义消歧效果;另一个应用是术语抽取作为概念图自动标引的重要基础工作,把术语识别和关系自动构建运用到概念图自动标引任务。本文的创新性工作有以下几点:一、为了有效抽取单语多词表达,在生物信息学的启发下提出了一种基于多序列比对的识别算法。利用文本序列与生物基因序列的相似性改进了多序列比对算法,使得其适合文本处理,同时算法中结合错误驱动规则,对于不连续结构的多词表达的抽取比传统的方法有很大的性能改善,改善之一是保障不同类型多词表达的召回率,其二,它运用动态规划的方法阻止候选多词表达纵合爆炸,采用的技术主要是在模式抽取上用全局策略代替局部子模式抽取,降低了子模式的冗余件。在实验中也证实,它对松散结构有较好的性能。二、提出一种多策略的方法来抽取双语多词表达。在单语抽取结果的基础上,统计和规则的方法以及双语对照运用到抽取系统中以提高效果。抽取过程有两个阶段,在第一阶段大量的单语候选多词表达从语料库中被抽取出来,多序列比对的方法对结构松散的多词表达效果较佳。第二阶段中,错误驱动规则以及模板从语料库中抽出,为了获得质量较高的训练实例,训练实例的选取采用人工辅以主动学习的方法,这些训练出来的规则用来过滤候选多词表达。双语对照方法也被本系统采纳,还有部分双语句法对照模式从双语短语词典中获取。另外还设计了一系列的实验选取合适的参数用以提高系统的性能。实验结果显示混合的方法比单一的方法取得较好的性能。三、把多词表达作为词义消歧的一种知识资源,提出一种新的词义消歧方法,叫做多引擎协同自举(MCB)。这种方法不但结合了不同类型的语料库包括双语语料库,而且还结合了不同类型的上下文词汇特征(包括多词表达)。初始特征以及迭代过程中特征的来源都是多渠道的,因而称为多引擎方法。MCB方法运用双语自举作为它的核心算法来完成特征的增量获取,并且在学习器中运用期望最大化算法(EM)来训练参数。双语间的特征翻译采用语义相关估计矩阵来提高特征在双语间翻译的质量。比起有指导的特征选取方法,这些通过无指导的机器学习方法学习得来的特征同样能够保证初始特征的高精确率。实验证明MCB方法是有效果的。另外一些因素包括特征空间和起始种子的数目也是实验关注的因素。四、把重要的一类多词表达抽取技术—术语抽取—运用到了图书摘要的概念图标引任务中,提出一种基于概念图的半自动标引方法。概念图标引是一种深度语义标引,它把离散的关键字通过语义关系连接成一个完整的语义整体。先手工标引一定量的概念图,总结出其中的标引规律,然后在手工标引的经验之上,探索概念图自动化标引,特定领域中的术语抽取与概念间关系构建是自动化标引的基础工作,实验取得了一定的进展。由于概念图的自动化标引是一项综合了自然语言处理多项核心技术的工作,后续的研究工作还很艰巨。