论文部分内容阅读
在现代汉语中,虚词承担着语法表现和语义辨析的双重任务,对汉语的语法分析和语义理解起着至关重要的作用。用错虚词就可能使句子的本意完全相反或者出现偏误。由于连词是虚词的一种,所以研究由于连词使用不当造成的偏误十分有意义。本文从现代汉语广义连词用法知识库入手,研究了连词偏误用法的自动识别。从现代汉语水平考试的历年试卷中抽取含有连词偏误的语料,整理、归纳形成结构化的连词偏误用法语料库,作为研究对象。分别使用规则的方法、统计的方法以及规则和统计结合的方法试图实现连词偏误用法的自动识别。在基于规则的方法中,参考现代广义连词知识库的规则库实现偏误规则形式化,编写连词偏误用法规则,扩充现代汉语连词用法规则库。根据连词正确用法规则和偏误用法规则进行基于规则的连词偏误用法自动识别。由于规则的编写比较复杂而且受到编写者的知识和经验的影响,接下来使用CRF进行连词偏误自动识别的研究,也就是基于语料的方法即使用统计模型进行连词偏误的自动识别。使用统计的方法能够自动或者半自动地学习连词上下文知识,但是对于分布比较稀疏的连词偏误用法识别效果比较差。结合者两种方法的优缺点,最后又使用了规则和CRF相结合的方法进行连词偏误用法识别的实验。实验结果表明,基于连词用法可以自动发现连词的偏误。对实验结果的进一步横向和纵向对比表明使用规则的方法准确率较其他两种方法高,但是规则和CRF结合的方法有比较高的召回率和F值。在连词偏误用法自动识别的基础上,构建了基于连词偏误用法自动识别的辅助教学系统,供对外汉语教学的教师和留学生参考使用。该系统依托于连词用法语料库和连词用法规则库,实现了辅助留学生和教师学习、教学等功能。在辅助学习模块,通过检索要学习的连词,系统展示其不同用法的正确例句和偏误例句;在偏误用法识别模块,用户可以给出有连词偏误的句子,系统进行分析,给出偏误类型、修改建议等信息供用户参考使用。