现代汉语文本中四字语的自动识别

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:hughy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代汉语中的四字语是指由四个字(音节)组成的语言单位,具体来讲主要包括四字成语以及一些约定俗成的四字语,如“四平八稳”、“春暖花开”等等。   四字语是人们喜爱的语言表达方式之一,据统计,《现代汉语词典》(第五版)中已经收录的四字语有4363个,在双音以上复音词中占41.37%,这充分显示出四字语在《现代汉语词典》乃至现代汉语词汇系统中占有重要的地位。四字语的自动识别对中文信息处理的基础技术和应用技术的发展都有十分重要的意义。   现代汉语中四字语的表现形式是多种多样的,笔者主要分为三大类,第一大类是从形式上考虑的,其中又分为两小类,一类是组成四字语的四个语素中没有固定语素但是四个语素之间有规律的,如“AABB”式、“ABAC”式等,另一类是组成四字语的四个语素中有固定语素的,如“千A万B”式、“上A下B”式等;第二大类是从上下文语境上考虑的,如“V他个XXXX”、“V得XXXX”等;第三大类是从四字语的内部语法特点上进行研究的,比如“N+ADJ+N+V”,“春暖花开”就属于这类。但考虑到“词无定性”等因素,识别第三类四字语的难度较大,因此笔者只研究前两大类四字语。   本文首先收集了近两百篇现代散文作为语料,然后对语料进行分析,总结四字语模式以及前后标记,构建了相应的知识库,在此基础上,设计并实现了四字语识别的程序,程序采用C#语言,运用面向对象的思想编写,最后将程序自动识别结果与手工标注结果以及四字语词典进行比较,计算四字语识别程序的召回率、准确率、F值,实验结果基本令人满意。
其他文献
本文作者根据我国餐饮行业的实际,分析了我国餐饮存在的食品卫生与安全问题,提出了这些问题的控制措施,防止食源性疾病发生,以确保餐饮食品卫生与安全。 According to the r
幼儿阶段的启蒙教育担负着国家发展的责任和寄托,从幼儿时期开始的教育会影响孩子以后的学习和发展,因此这个阶段的教育非常重要.新时期背景下的幼儿教育,教师对于幼儿的管理
期刊
期刊
口语表达能力是对外汉语口语教学的最终目标,用汉语说话是留学生最迫切想要掌握的技能,是他们日常工作和学习中运用最多的一项技能,因此汉语口语课成了对外汉语课堂教学一门举足
练习在对外汉语教材中有着重要的地位,对于零起点的对外汉语教材,练习更应得到充分的重视。在这一领域有不少研究,我们可以在这些优秀成果的基础上继续深化细化研究,对于现行
戴·赫·劳伦斯的小说《儿子与情人》是现代文学作品的经典之作。直以来,研究者们往往注重其中的俄狄浦斯情结和两性关系。其实,书中对于人文景观和自然景观的描写,及其中蕴
为解决豫北地区没有鱼腥草栽培,缺乏耐低温能越冬材料的需求,本实验以鱼腥草茎段为外植体进行不同植物生长调节剂及其浓度的组织培养诱导侧芽发生,优化了鱼腥草侧芽组织培养
学位
本文运用语义功能语法、范畴化的原型理论、句法象似性等相关的语言学理论和方法,对604个双音节方式副词、42个单音节方式副词和45个三音节方式副词的语义特征、语法特征、韵