论文部分内容阅读
四字格的能产性和派生性极强,利用四字格模式创造出的新词数量在现代汉语词汇中仍然呈上升趋势,因此对四字格的研究不能仅仅局限于文献和理论。本文将研究的目光投向分词语料库中数量众多的四字格,并针对分词语料库中四字格易被切碎的特点,进行了四字格抽取、四字格切分不一致比较、四字格识别等一系列工作。
本文首先对分词语料库中的四字分词单位进行提取和筛选,得到四字格抽取结果;并利用四字格抽取结果,进行了分词语料库内部和分词语料库之间的四字格切分不一致比较工作。在四字格识别研究中,通过引入crf 统计模型,并将四字格切分不一致结果作为模型训练语料,本文在有词性标注分词语料库中进行了四字格的识别研究。利用crf模型识别得到的四字格结果,统计四字格用字、词性信息并观察内部结构特点总结规则,本文在无词性标注分词语料库中也进行了四字格的识别研究。识别结果表明,在有词性标注分词语料库和无词性标注分词语料库中,四字格的识别精度都能达到90%左右。