论文部分内容阅读
组块是介于词语和句子之间的一种语言结构,目前还没有明确的定义.本文总结了当前对组块的各种研究,对汉语组块进行了定义.同时组块的获取和收集也是一项迫切的任务,由于不易直接获取到具有组块标注的语料,我们从现有树库中抽取组块.本文根据汉语特点提出了12种汉语组块类型,并根据这些组块类型和宾州大学中文树库短语类型的对应关系进行转化获得组块库.