基于深度学习的文本纠错关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tpxlw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国移动网络行业和大数据技术的快速发展,各类互联网应用层出不穷,导致互联网用户规模呈指数级增长,因此累积了海量非结构化中文文本数据。海量中文文本数据中蕴含了丰富的语义信息和重要的语义知识,但同样也存在各种人为输入错误导致的数据噪音,从而降低了文档整体平均质量,也间接影响了对海量文本数据进行数据挖掘的价值。但是,中文文本数据规模的海量化导致传统基于人工方式的文本质量评估和文本纠错方法存在巨大的时间开销,因此如何高效地对文本数据进行自动化质量评估和文本纠错是工业界和学术界重点关注的研究问题之一。近年来,中文文本纠错任务受到越来越多人工智能领域研究学者的关注,因此本文结合中文独有的语法结构和特性,重点研究面向金融领域的中文文本纠错问题,提出了一种基于语言模型的中文文本纠错方法,其具体工作包含如下三个部分:第一,中文文本数据预处理。综合分析金融垂直领域文本纠错数据的分布规律,通过数据过滤和数据增强等方式提升数训练数据的质量和利用率,结合训练数据分析得到领域混淆字典,从而引入垂直领域知识信息,然后对金融垂直领域语料进行预处理,用于训练N-gram语言模型和微调BERT预训练语言模型,学习领域化知识。第二,文本检错模块。针对文本纠错问题,本文采用深度学习的方法对待纠错文本进行异常点检测,并进行了对比实验。结合Word2Vec方法、双向LSTM模型和BERT语言模型等深度学习方法提出新的WL-BERT文本检错模型,通过融合不同语义的词向量对句子中的每个字符做二分类预测得到异常点位置,达到了本文最优的文本纠错效果,检错F1值达到0.849。第三,文本纠错模块。主流的传统模型是基于N-gram的纠错模型,但是其长距离依赖建模能力和上下文理解能力较差,同时传统的深度学习模型也无法很好地引入垂直领域知识,所以本文将N-gram语言模型和BERT语言模型模型进行集成操作。首先对于检错模块得到的待纠错句子异常点位置进行N-gram模型纠错,结合领域混淆字典得到纠错候选集,判断不同句子的困惑度进行纠错操作,接下来采用BERT语言模型进行纠错,得益于attention机制强大的上下文理解能力和预训练语言模型无监督学习得到的中文知识,能够针对每个位置更好地给出符合上下文语境的纠错候选集,经由置信度-相似度过滤器模块进行文本的纠错操作。实验结果表明,本文提出的模型文本纠错性能最好,F1值最高能达到0.824,比单独采用BERT模型的纠错性能提升了4.1 F1。通过模型集成的方法,不仅利用了深度学习强大的学习、泛化能力,还引入规则化的混淆字典,结合不同方法的优点,从而达到了更好的中文文本纠错效果。
其他文献
目的 观察沙利度胺治疗强直性脊柱炎的临床疗效及其安全性。方法 选取2018年7月—2020年7月孝感市第一人民医院收治的强直性脊柱炎患者60例,按照随机数字表法分为对照组与观察组,每组30例。对照组予以柳氮磺吡啶,观察组予以沙利度胺。2组均持续治疗1年。比较2组临床疗效,治疗前后红细胞沉降率、C反应蛋白、扩胸度、外周关节肿胀数、枕臂试验,临床症状(腰背痛、晨僵、下肢酸痛)缓解时间,治疗前后疼痛评分
利用EBSD、SEM、OM、热模拟试验机等对比研究了不同粉末粒度制备的一种新型镍基粉末高温合金(WZA3)在不同热压缩变形条件下的变形行为和组织差异性。结果表明:相比细粉制备的HIP-01样品而言,粗粉枝晶组织明显,成分偏析严重,其制备的HIP-02样品中残余粗大γ′较多。低温(1050、1080℃)高应变速率(1、0.1s-1)时,HIP-01样品峰值应力值高于HIP-02。热压缩后HIP-01
目的 探讨艾拉莫德联合塞来昔布治疗强直性脊柱炎的疗效。方法 选取2019年7月-2020年12月我院就诊的69例强直性脊柱炎患者作为研究对象,采用随机数字表法分为对照组34例和观察组35例。对照组给予塞来昔布联合柳氮磺胺吡啶片治疗,观察组给予塞来昔布联合艾拉莫德治疗,比较两组临床疗效、骨代谢指标[超氧化物歧化酶(SOD)、Ⅰ型胶原交联羧基末端肽(CTX-Ⅰ)及骨钙素(BGP)]、炎性因子[红细胞沉
<正>陕西地区历来就是文化、旅游大省,千年留存的浓郁历史韵味以及源远流长的文化积淀都代表着陕西地区丰富的物质文化遗产。近年来,随着陕西地区发展步伐急剧加快,人文特色不断被挖掘、发扬。例如以陕西著名作家陈忠实代表作《白鹿原》改编的电影、电视剧作品一经播出,对剧中真实表现具有陕西特色的居住、饮食等情节的内容颇受好评。在旅游住宿行业中,绝大多数标准化的度假型酒店,由于市场定位、行业标准的约束,对
期刊
乡村旅游不仅是全面推进乡村振兴的现实措施之一,也是作为旅游产业链的延伸,对农业经济与旅游经济发展有效融合提供了方向。乡村旅游在乡村振兴战略背景下,也有了新的发展机遇及挑战。文章以平凉市崆峒区为例,在研究崆峒区乡村旅游业发展现状和优势的基础上,通过实地调研发现崆峒区乡村旅游业发展存在的问题,并根据问题提出了针对性的建议及对策。
本文针对老字号品牌发展遇阻问题,结合消费升级等时代背景,探究怀旧情感在老字号品牌设计中的创新策略,寻求老字号品牌传承与发展的有效途径,帮助老字号品牌突破困境,重拾辉煌。了解怀旧情感的实质与意义,挖掘老字号怀旧资产与当下怀旧浪潮的联系,分析现下优秀的运用怀旧情感的老字号品牌设计案例,探析怀旧情感运用在其中的应用场景与方式,研究切实可行的品牌创新设计策略。现今在老字号品牌创新中善于利用好怀旧资产,与时
随着信息电子化的深入发展和自媒体群体的快速扩增,中文电子文本数量呈井喷式增长,伴随产生了大量的文本拼写错误和语法错误,极大降低了互联网文本信息质量,给电子文本的使用与传播带来消极影响,尤其是在新闻领域,对文本初稿的校对是一项体量巨大的工作,仅仅依靠人工校正成本极高,效率低下。中文文本纠错(Chinese text error correction)是自然语言处理领域中的经典任务,利用MASKED机
平行四边形和梯形的概念,都是基于“平行”这一核心概念基础上。在学习了核心概念“平行”后,可把认识平行四边形和梯形整合在同一课时进行对比学习。在学生学习四边形的基础上,进行“比较分析,理解两个概念的本质;自主迁移,探究两个图形的特征;动态想象,感悟各种四边形的关系”的教学实践。
目的 探讨基于能力素质冰山模型的护理管理在手术室护理中的应用价值。方法 惠州市第一人民医院手术室于2020年1月开始实施基于能力素质冰山模型的护理管理,将2019年1~12月实施常规手术室护理管理的45名护理人员纳入对照组,将2020年1~12月实施基于能力素质冰山模型护理管理的45名护理人员纳入观察组。比较2组的护理管理质量、护理人员工作质量,并记录手术不良事件。结果 观察组沟通、洗手规范、体位
学校教育要遵循陶行知先生的教育思想,与家庭教育形成合力。多渠道组建家长团队,发挥辅助功能;多方位开展培训活动,发掘家长潜能;多层面创造参与机会,体现家长价值。