论文部分内容阅读
语言知识库是众多自然语言处理系统不可或缺的组成部分,同时也是各种自然语言处理技术赖以实现的基础。随着语料库方法和统计语言模型在自然语言处理领域的广泛运用,大规模语言知识的开发和自动获取成为目前自然语言处理技术的瓶颈问题。语言知识库建设已经成为自然语言处理领域最基本、最重要的应用基础研究之一。
北京大学计算语言学研究所在语言知识库的建设方面积累颇丰,在相同的语法理论体系指导下,开发了一系列以汉语为核心的包含词法、句法和语义等信息的语言知识库,总称为“综合型语言知识库”。本文的研究是以综合型语言知识库为基础,围绕异质资源的集成创新这一主题,从资源集成的“广度”和“深度”两个方向展开研究,主要工作包括:
第一,从资源集成的“广度”上,主要探索异质数据资源集成的方法,将结构和表现形式各不相同的语言知识库纳入同一个软件平台,建设“综合型语言知识库系统”,在最大程度上挖掘和发挥资源集成的优势,实现信息服务向知识服务的转型,为自然语言处理研究、语言本体研究及语言教学研究提供全方位、多层次的支持。在这一层次上,本文主要侧重于软件系统的功能设计和开发,完成了综合型语言知识库系统主体功能模块的建设。
第二,从资源集成的“深度”上,将结构化知识(词典知识)与非结构化知识(语料库)相融合,研究词语语法属性的概率化描述方法,构建新的语言资源《概率型现代汉语常用词汇知识库》,作为集成创新的成果。本文选择名词为切入点,研究从语料中自动获取名词语法属性的方法,内容涉及数词与名词构成的“数名结构”,数词、量词与名词构成的“数量名短语”以及名词与名词构成的“复合名词短语”,并对这三种属性关系进行了详细的句法和语义分析。本文在这一层次上主要侧重于研究方法的探索,其范围涉及到自然语言处理领域多方面的内容,创新点包括:
1.提出了新的统计量“分散度”,用来区分数词与名词组成的“数名”结构是固定搭配还是自由短语。该统计量对于其它问题,如量词的分类等也具有借鉴意义。
2.设计并实现了复杂数量名短语的识别算法,实验结果表明,该方法可以有效地识别这一类存在语义约束的名词短语。本文将该方法应用到大规模的语料库上,从而得到真实的量名搭配分布。
3.基于量名搭配的统计数据,本文首次采用基于信息论和知识的计算模型,定量地分析了量词对名词的语义选择限制。此外,本文提出了基于量词的名词概念描述方法,研究了量词在名词语义分类中的作用。这些计量研究的成果为量词的定性研究和分析提供了补充和佐证。
4.针对统计指标不能有效获取低频复合名词短语的问题,本文提出了新的解决方法,将其视作一个分类问题,利用统计指标获取典型的、高频的复合名词短语作为训练数据,来帮助发现低频的复合名词短语,实验结果说明该思路是有效的。
5.对于汉语复合名词短语的语义解释,本文首次采用动态的策略,提出了“基于动词的释义短语”的方法,对复合名词短语进行语义解释,该方法不仅可以为复合名词短语提供多种可能的语义解释,而且能够反应相似的复合名词短语之间细微的语义差别。
综合型语言知识库系统既是本文的研究基础,又是本文的研究目标。作者在资源集成两个层次上的研究工作,不仅为后续工作提供软件支持,也为其它词类的语法属性之计量研究提供方法上的借鉴。