现代汉语语法偏误统计分析与自动识别研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:enhanyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国国际地位的提高,越来越多的外国人开始学习汉语,外国人在写作时会不自觉地引入语法偏误。对语法偏误数据集进行研究有利于对外汉语针对性的开展教学,对语法偏误自动识别研究有利于减轻教师的教学重担。本文研究了大规模现代汉语语法偏误数据集,统计和分析了出现语法偏误的词语,同时研究了语法偏误自动识别,提出了三种不同的模型进行实验,具体内容如下。(1)现代汉语语法偏误数据集统计分析。本文对两种大规模语法偏误数据集Lang-8和HSK进行统计分析,首先分别对数据集进行预处理,去除对统计无意义的数据,保留含有语法偏误的数据。然后采用不同的统计方法,统计出现语法偏误的实词、虚词,之后分别对统计结果进行分析,最后对比分析两种统计结果。结果显示,语法偏误是有规律的,容易出现语法偏误的词语有“的”、“了”、“在”等。(2)基于HSK数据集的现代汉语语法偏误自动识别研究。采用三种不同的模型进行研究:多特征的Bi LSTM-CRF模型、Bi LSTM-CRF与CRF联合模型、基于BERT和注意力机制的Bi LSTM-CRF模型。多特征包括词语、词性、虚词用法粗粒度、虚词用法细粒度、依存句法,特征之间相互组合。Bi LSTM-CRF与CRF联合模型联合两个模型的结果并进行融合得到最终预测结果。基于BERT和注意力机制的Bi LSTM-CRF模型,不同于BERT+Bi LSTM-CRF模型,本文提出的模型中BERT获取句子动态词向量形式,Bi LSTM对向量进行编码,Bi LSTM对编码的输出进行解码,同时自注意力机制获取解码端的序列内部信息,CRF对序列进行约束,从而得到最终预测结果。本文在CGED 2018数据集上进行测试,实验结果显示融入虚词用法和依存句法分析特征的模型在第一个子任务上F1值提升1个百分点,Bi LSTM-CRF与CRF联合模型在前两个子任务上F1值提升1个百分点,基于BERT的模型表现最优,取得三个子任务中最高F1值,分别为0.7482、0.5015、0.2521,在自动识别级别提升了5个百分点,在偏误类型级别提升了7个百分点,在位置级别提升了16个百分点。实验结果表明基于BERT的模型表现最优。
其他文献
工匠精神在中国传统行业和民间社会占有重要地位,但在意识形态领域,受传统儒释道思想影响,在主流价值体系中地位不高。编辑出版工作也有较强的工匠精神传统,但因为各种原因,
针对施工项目进度管理在项目施工中的重要性,介绍了施工进度管理的目标和指导思想,探讨了施工项目进度管理的原理,并对影响施工项目进度的因素进行了分析,提出了施工项目进度
近年来,随着我国老龄化人口持续增多,视障人群也在急剧增加,如何解决视障人群的安全出行,提高该群体的生活质量,备受社会关注。电子导盲系统是一个多领域交叉的学科,涉及机械
<正>我国是历史悠久的陶瓷古国,但现代卫生陶瓷的制造技术却是由欧洲传入的。我国自生产第一件卫生陶瓷至今已有80多年的历史,至上世纪80年代以前一直没有多大发展。进入上世
血管性认知障碍(vascular cognitive impairment,VCI)是常见的认知损害类型,相比阿尔茨海默病(Alzheimer's disease,AD),VCI具有相对可预防性和治疗性,早期识别意义重大。精确的神
时代在进步,经济在发展,高速公路的里程也在不断增长,服务区作为高速公路重要的附属设置也得到了飞速的发展。因此,高速公路服务区作为重要的服务窗口,其精细化管理显得尤为
本文针对独立电源系统中的无刷双馈发电机的特点,考虑到功率绕组和控制绕组的端电压随转速和负载的变化而变化,在无刷双馈电机d-q轴数学模型的基础上,建立了无刷双馈发电机在
内蒙古旅游客源市场可分为国际和国内两个部分。开发旅游客源市场要认真分析研究国际、国内市场的特点和需求变化趋势,针对内蒙古旅游资源特点和区位条件,明确旅游客源市场定位
当今城市的发展已进入都市美学时代,艺术介入城市开始成为一种趋势,成为介入社区营造的重要手段。文章从艺术介入社区营造的意义入手,从公共空间、社区产业和社区文化三个角
王秀云以从政女性和作家的双重身份书写女性从政,揭示了当代女性的政治文化生态。王秀云写作的意义在于她以自觉的女性立场和独特的叙事为当代中国女性文学增添了独异的人物