论文部分内容阅读
词语搭配是一种具有一定语法结构关系的、可重复出现的词语的组合。一般指具体词语之间的组合关系,在自动句法分析、机器翻译等领域,能发挥不可替代的作用。而动宾搭配更以其使用的高频性、复杂性、灵活性受到学者的广泛关注,其也更是构建词语搭配库的核心问题之一。单纯依靠人工筛选建库是不可取的,自然语言处理就是要对词语搭配进行深入地研究,找到适合计算机大规模处理的方法。在广义搭配观下,基于精确标注的清华汉语树库语料,针对动宾搭配主要做了两部分工作,其一,对动宾搭配的多角度考察;其二,对动宾搭配的自动获取与识别。第一部分从定性和定量相结合的角度考察了树库中抽取到的50611对(tokens)动宾搭配实例。定性考察主要在搭配的词序、词性、动词的语法属性、搭配中的词汇语义作用等方面,围绕词语搭配所涉及到的语法、词汇、语义(事理逻辑)等层面,作出相关分析,为后续识别阶段提供理论参考;定量考察主要介绍了搭配自动获取与识别的常用统计量,并对树库中的动宾搭配在搭配频次、互信息、距离的平均值与方差等方面作了统计与分析,甄别哪部分统计数据后续识别阶段较为有用。第二部分分别基于传统统计方法和统计机器自动学习方法对动宾搭配进行了自动获取与识别。传统的统计方法,处理模型比较简单,多是单一的统计量,如共现频率、互信息等,识别结果F值在50%左右,效果不甚理想。于是,转向基于机器自动学习的复杂统计模型条件随机场CRFs进行动宾搭配的自动识别。详细实验了分词与词性标记集不同对实验结果的影响,词性组合序列类型的限定不同对实验结果的影响,不同来源语料及规模对实验结果的影响。在特征设置阶段,实验了音节特征、动词次范畴特征、上下文特征以及它们之间的组合特征,给实验结果带来的变化。综合实验结果,基于树库分词和词性标记的最好结果是F值87.40%,基于北大标准的分词和词性标记的最好结果是F值74.70%。动宾搭配自动识别的结果显示出CRFs在序列化标注方面确实有效可行,后续识别工作仍有提高空间。