论文部分内容阅读
现代汉语中的四字语是指由四个字(音节)组成的语言单位,具体来讲主要包括四字成语以及一些约定俗成的四字语,如“四平八稳”、“春暖花开”等等。
四字语是人们喜爱的语言表达方式之一,据统计,《现代汉语词典》(第五版)中已经收录的四字语有4363个,在双音以上复音词中占41.37%,这充分显示出四字语在《现代汉语词典》乃至现代汉语词汇系统中占有重要的地位。四字语的自动识别对中文信息处理的基础技术和应用技术的发展都有十分重要的意义。
现代汉语中四字语的表现形式是多种多样的,笔者主要分为三大类,第一大类是从形式上考虑的,其中又分为两小类,一类是组成四字语的四个语素中没有固定语素但是四个语素之间有规律的,如“AABB”式、“ABAC”式等,另一类是组成四字语的四个语素中有固定语素的,如“千A万B”式、“上A下B”式等;第二大类是从上下文语境上考虑的,如“V他个XXXX”、“V得XXXX”等;第三大类是从四字语的内部语法特点上进行研究的,比如“N+ADJ+N+V”,“春暖花开”就属于这类。但考虑到“词无定性”等因素,识别第三类四字语的难度较大,因此笔者只研究前两大类四字语。
本文首先收集了近两百篇现代散文作为语料,然后对语料进行分析,总结四字语模式以及前后标记,构建了相应的知识库,在此基础上,设计并实现了四字语识别的程序,程序采用C#语言,运用面向对象的思想编写,最后将程序自动识别结果与手工标注结果以及四字语词典进行比较,计算四字语识别程序的召回率、准确率、F值,实验结果基本令人满意。