论文部分内容阅读
动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是语言学研究的热点,也是自然语言处理进一步发展所不可或缺的知识。世界上很多语种在次范畴化信息自动获取的理论和实践等方面都取得了很大的进展。怎样减少次范畴自动分析过程中所需的由人工给定的语言学知识,同时减少输入数据对完全正确句法信息的依赖,并将目前已经成熟的汉英动词次范畴资源应用于实际,不但可以加深对动词次范畴语言现象的整体理解,完善动词次范畴相关的理论体系;而且也为语义和层次句法结构的表示及应用提供了新的研究方向,具有重要的理论研究意义和广阔的应用前景。阻碍次范畴化信息应用于实际的有两个关键问题。一是从真实应用中获得的文本数据一般不含有句法信息,并且同时含有大量的格式噪音现象,目前的动词次范畴自动获取技术不适合直接使用这样的数据作为输入;二是次范畴假设自动获取过程中,需要一定的手写语言学规则作为启发式信息。为了弥补以上不足,在尽可能少地依赖由人工给定的语言学知识的情况下,设计一整套更加适合计算机自动分析方法,使得动词次范畴可以取自实际,并应用于实际,本文在国内外已有相关成果的基础上,充分考虑动词次范畴的自身特点,对整个流程进行了深入的研究。依照数据处理的前后顺序,本文研究从如下几个方面展开:1.借鉴自然语言基础相关研究的方法,将段落切分、句子切分、标点符号的使用以及英文单词的大小写等格式噪音的纠正真正地整合到了一个统一的框架中。这种方法可以直接以同时含有多种格式噪音的数据作为输入,并且在噪音过滤过程中考虑了不同类别噪音之间的依赖关系,而不像传统方法,独立的考虑不同类别的噪音。这种统一的处理方法,极大提高了输入数据格式噪音的过滤性能,为将从真实应用中获取的文本数据被后续的自然语言处理工具所接受奠定了基础;2.设计实现了基于无向图模型汉语分词词性标注一体化系统并从泛函空间的角度讨论了各种分类器融合方式的优劣。一体化汉语词法分析系统可以同时进行分词和词性标注两个汉语自然语言基础任务,并且避免了传统的词法分析方法中分词阶段对词性标注阶段造成的错误累积,同时相对基于有向图的汉语分词词性标注一体化方法,无向图模型可以考虑更深层次的依赖关系,大幅提高了汉语词法分析的性能,为次范畴自动获取提供了保证。3.完成了从大规模真实文本中自动抽取语言学知识。这种以动词次范畴论元映射关系存在的语言学知识可以代替目前SCF自动获取过程中所需的启发式信息。这一过程不但放松了对输入句子必须含有完全正确句法信息的限制,并且采用了主动学习策略,使得在抽取过程中几乎不需要任何先验的额外语言学知识。此方法避免了目前方法中,论元映射关系需要人工事先给定的缺点,同时因为自动抽取方法可以获得大量的论元映射关系,较人工给定的论元映射规则,大幅提高了论元映射关系集合的覆盖范围。4.引入间隔加权子序列核函数,设计了一种基于有指导模式的动词次范畴的自动获取方法。这种方法不再直接应用论元映射关系的匹配推导来得到相应的次范畴假设。而是将指向同一论元类型的所有映射的左部,作为训练样本集,通过间隔加权子序列核函数的方法,将问题空间转化为特征空间,并在特征空间内,判定新输入的数据和哪一类映射关系所描述的论元类别更加相似,以决定应用哪一论元类别的映射关系。这种新的论元对应关系使用方式和间隔加权子序列核函数的引入,大幅提高了自动获取过程中论元对应关系集推导结果的一致性。5.研究了汉英双语动词次范畴论元对应关系(论元等价对)的自动获取方法。此方法可以在大规模的双语平行语料上,以一个简单的论元对应关系为初始种子自动地发现大量新的汉英论元对应关系。我们将这些新发现对应关系融入了基于短语的统计机器翻译系统后,翻译系统的汉英翻译性能有明显的提升,证明了自动抽取的汉英论元对应关系的有效性。以上5个技术依次应用,每一个步骤的输出都是下一个步骤的输入。技术1去掉了数据中格式噪音,使得这些文本数据可以被后续的自然语言处理工具所接受;技术2为动词次范畴获取添加了必要的词法信息。前两个技术广泛适用于其他应用,我们称其为预处理过程,但又是高质量动词次范畴分析不可缺少的支持。准备好数据后,技术3自动获取的语言学知识可以代替传统的启发式信息,技术4依据自动获取的语言学知识,以有指导的方式进行次范畴获取。技术5使用已获得的双语动词次范畴信息为SMT提供支持。这样本文在尽可能不依赖语言学知识的条件下,使得动词次范畴可以取自实际,并应用于实际的过程。