CPLM-CSC基于单字级别预训练语言模型的中文错别字纠正方法

来源 :第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 | 被引量 : 0次 | 上传用户:felixjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战.现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练.本文提出一种基于预训练语言模型的错别字纠正方法,CPLM-CSC,能够显著地提高纠错性能.CPLM-CSC 采用基于单字级别预训练语言模型来进行错别字检测,并采用掩字语言模型来进行错别字纠正.为了提高纠正性能,CPLM-CSC 采用音近形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如:“的地得”误用,采取了专门的数据增强方法.CPLM-CSC 在SIGHAN 2015 的评测数据集上进行了测试,并取得了0.654 的F1 值,性能优于其他模型.
其他文献
广州市琶洲西区双塔路为琶洲西区内东西向重要骨干道路,涉及在建及规划地铁线、在建综合管廊等工程,需要进行共建及协作技术方案,对道路景观、建设标准、项目间交互设计等要
文章从城市交通导识系统的功能及导识系统交互设计的基本原则出发,较为详尽地论述了图像识别、大数据计算等新技术在改善城市交通导识系统中交互设计中的应用方式,进而提出了
自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等.其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信
文章简要介绍了工程交通基础情况,开展了案例工程融合海绵城市建设思想的整体规划,尝试建设智慧停车场,缓解现阶段工程周边交通存在的问题,比如人行道铺装性能欠佳、主车道性
传统村落是承载中国农耕文化,体现乡土智慧的特殊聚落形态,是民间物质文化和非物质文化遗产的重要生存土壤和空间载体。经济社会的发展和快速城市化进程中,传统村落衰败、传
牛年话牛,牛属于哺乳纲,牛科,是一种革食性反刍家畜,无犬齿,上颚无门齿,鼻头光滑湿润,给人以温和之感.牛属有四种:普通牛、驼峰牛、牦牛、野牛,世界各地均有分布.rn我国亦多
期刊
知识表示学习在关系抽取、自动问答等自然语言处理任务中获得了广泛关注,该技术旨在将知识库中的实体与关系表示为稠密低维实值向量.然而,已有的模型在建模知识库中的三元组
智能推荐型对话系统通过丰富的交互方式与用户进行交流,首先收集用户兴趣和偏好,然后主动地向用户推荐其感兴趣的内容.因此,该类系统通常涵盖多种对话类型,如问答、闲聊、推
从海量生物医学文献中挖掘变异信息对生物医学复杂疾病研究具有重要意义.在当前的变异实体识别方法中,基于条件随机场模型的方法取得了不错效果并成为主流方法,但存在需要大
文章从BIM模型设计、协同管理和智能化施工设备三方面介绍了BIM技术在高速铁路隧道工程机械化智能建造方面的应用。该技术对于加强工程的管控、优化施工工序具有重要意义。