基于多粒度先验知识的中文文本纠错关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yunlong0451
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动网络和Web2.0技术的快速发展,互联网中积累了海量用户文本数据,其中蕴含巨大商业价值。但是,文本数据爆炸式增长往往伴随着文本质量的快速下降,且文本数据的海量化与人工文本纠错高代价之间很难平衡,因此如何实现自动化中文文本纠错对提升文本质量具有重要的学术意义和商业化价值。通常,中文文本输入错误会导致错误字符与上下文语义不一致等问题而严重影响文本语义理解,而以往基于字序列的预训练语言模型(如BERT等)忽略了细粒度字符特征(如字间间隔、相似字符等),导致其在进行中文文本纠错时性能受限。因此,提出了两种不同的基于多粒度先验知识的中文文本纠错模型。具体相关工作内容如下:(1)基于词级先验知识的中文文本纠错模型,主要考虑将不同粒度的先验知识(如分词信息、词级信息等)引入模型,同时采用基于双向长短期记忆循环神经网络的文本编码方式和基于二次过滤的字粒度句级文本纠错解码器,以提升模型错字识别能力及错字纠错能力;(2)基于字级相似度特征的中文文本纠错模型,主要考虑利用字符细粒度相似特征(如字符拼音/笔画序列相似度等)结合BERT模型进行中文文本纠错,以有效提升模型在文本纠错阶段候选字符的覆盖度、灵活性及领域通用性,同时利用自编码器和残差模块进一步优化模型性能。通过在常用文本纠错数据集上实验显示,相较于未引入多粒度先验知识的中文文本纠错模型,所提出基于词级信息先验知识的中文文本纠错模型在纠错评价指标F1上提升6.8%,所提出基于字级相似度特征的中文文本纠错模型在纠错评价指标F1上提升3.0%,充分显示了两种不同基于多粒度先验知识的中文文本纠错模型在文本纠错任务上的有效性。
其他文献
新时代背景下,初中青年教师的专业发展对于学生成长、学校发展、中考改革都有举足轻重的影响。为更好地发挥他们的作用和影响力,有必要了解其专业发展的问题及其产生的原因,并提出相应对策。笔者选取武汉市东湖高新区T学校为案例,以其初中部青年教师为研究对象,采用问卷调查和访谈的方式,从专业知识、专业技能和专业情意三方面展开调查,从学校、家庭和社会等教育生态环境对青年教师专业发展的具体情况做了分析,重点分析了存
学位
新时代,如何在推进教育高速发展的同时兼顾到教育公平问题,科学平衡两者间的关系成为当下一件紧迫的事情。面对稀缺的优质高等教育资源,每年约四分之一的学生只能就读于所谓的“三本”普通高校,也即非优质的高等教育资源。从基础教育公平视角,针对这一庞大的、相对弱势的学生群体,值得对他们基础教育阶段的家庭背景和基础教育经历进行系统的描述分析和探究。本研究以量化研究方法为主,以新疆K校为案例,以该校学生作为研究对
学位
在零售行业由传统零售到智能零售的转型过程中,人工智能技术起着功不可没的作用。人工智能应用在零售行业的关键技术包括计算机视觉、智能语音、自然语言处理和知识图谱等。图像识别技术作为计算机视觉的热门研究方向,在零售行业被广泛应用在以图搜图、无人零售和货架牌面管理等方面。目前,在大规模、细粒度的商品图像下提升识别准确率是图像识别在以图搜图场景下面临的主要挑战。针对如何提高RP2K数据集上商品识别准确率的问
学位
随着新媒体技术的快速发展,传统媒体在当今的传播环境中的媒介影响力逐渐被各类新兴媒体平台所削弱。县级融媒体中心的媒介影响力及其发展问题也受到了广泛的关注。本文通过对媒介影响力及构成要素的相关界定与讨论,结合县级融媒体中心的定位和传播特征,对县级融媒体中心媒介影响力的主要构成要素和影响因素进行了讨论,同时,根据文献和调研资料对全国及湖北省的县级融媒体中心的发展环境和建设进展进行了总体性的分析。在此基础
学位
数字水印通过算法将标识信息嵌入数字载体如文档、图像等,并且不会影响原有载体的使用价值和使用体验,在发生版权纠纷时,能够通过水印检测从载体中提取相应的标识信息以验证数字载体版权的归属问题,从而达到版权保护,泄密溯源和隐秘通信的目的。本文对屏幕数字水印技术进行了深入的分析,探究运行在涉密单位电脑上屏幕水印绘制速度过慢的问题。在传统方式中,联合图形设备接口(Graphics Device Interfa
学位
光纤是一种互联网的传输介质,已经被广泛应用于骨干网和边缘网络中。波分复用技术是光网络中提高传输带宽的技术之一。多播技术是指从单个源节点发送单份信息,通过路由分发传递给多个目的节点的技术。随着多播技术的广泛使用,多播路由与波长分配(Multicast Routing and Wavelength Assignment,MRWA)问题逐渐成为智能光网络中的关键技术,对于提高网络效率、稳定性和拓展性等有
学位
星上自主任务规划问题一直以来都得到了广泛的关注,其中单星自主任务规划能够提高任务规划的精确性,降低成本,而多星协同的自主任务规划能够充分发挥各卫星的观测能力和优势,高效地利用星上资源完成任务。基于现有研究中全局规划场景较多、多时间窗场景较少等问题,将问题推广到更为复杂的多星协同场景中,研究面向动态需求的多星协同自主任务规划问题具有重要的理论意义和实际应用价值。将多星协同自主任务规划系统视为一个多智
学位
随着互联网、物联网与自动化等技术迅速发展,电网智能化信息化程度不断提高,电网安全稳定运行面对的环境和技术基础都发生了很大的变化,各类新信息技术在电网中的推广应用,各种状态感知信息都可以上传到电网调控中心。这些多源异构的电网大数据为电网的安全分析决策、故障智能诊断提供了丰富的信息源,也对电网信息处理能力提出了巨大的挑战。为此,研究电网多源数据融合建模与实时处理具有重要的科学意义和应用价值。首先,为了
学位
关系型数据库在大数据时代承载了大量信息,其交互方式主要依赖于结构化查询语言(Structured Query Language,SQL),但对于非专业用户来说,难以利用SQL语言准确表达自己的查询需求。自然语言转SQL语句(Natural Language to SQL,NL2SQL),能准确地将自然语言描述的查询需求自动化地转换成SQL语句,以有效提升关系型数据库查询的便捷性,其具有重要的研究意
学位
旅行商问题是经典的NP完全问题,被组合优化领域的学者广泛研究。它衍生出了很多变种问题,比如着色旅行商问题、多旅行商问题、车辆路径问题等。旅行商问题可应用在安排生产作业任务等实际应用场景,着色旅行商问题可应用在多桥加工系统等实际应用场景,都有十分重要的研究意义。旅行商问题为给定具有距离信息的若干城市,求出旅行商从一个城市出发走完所有城市后返回该城市所需的最短距离。目前,将机器学习的算法和启发式算法进
学位