零样本中文文本识别的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xiaguangguang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字是世界上最古老的文字之一,它是中华民族历史和文化传承的载体。在日常生活中,越来越多的应用场景需要中文文字的识别技术,例如中文古籍文档电子化、作业批改和版面还原。汉字具有类别数量庞大(GB18030-2005的标准中有70244种汉字)、笔画结构复杂和字体风格多样的特点。然而,传统的文字识别方法需要大量的有标注数据进行训练,因此为每个汉字收集和标注足够的数据是一件困难的事情。为了解决该问题,在样本不足甚至某些类别没有样本的情况下进行零样本的中文文本识别成为一个重要的研究方向。本文基于零样本学习框架,对零样本中文单字识别和文本行识别,分别提出了新的解决方案。本文的研究和主要创新包括:(1)针对层级分解嵌入算法中存在的人工设计类别嵌入,以及采用单一的度量方法进行匹配的问题,本文提出了用于零样本中文单字识别的深度嵌入网络(Deep Embedding Network)。该网络引入了深度嵌入模块,解决了类别嵌入完全由人工设计的问题。为了改进匹配的方法并实现零样本识别,本文提出了基于交叉注意力机制(Cross-attention Mechanism)的解码器,它通过类别嵌入去查询相关的视觉特征,并进行解码得到识别结果。实验证明,在中文单字识别任务上,深度嵌入网络的识别性能优于层级分解嵌入的算法,并且相比于其他的零样本单字识别算法也具有优越性。(2)针对零样本的中文文本行识别问题,本文提出了一种基于匹配类别嵌入(Matching Class Embedding)的零样本中文文本行识别模型。该模型采用类别嵌入模块对汉字的类别进行编码,解决了文本行的部件序列过长的问题。为了实现零样本识别并提高解码的效率,进一步提出了基于距离的时序连接序列解码器,该解码器实现了视觉特征和类别嵌入的匹配,并且能够在文本行上并行地进行预测。实验验证了该方法在中文文本行识别任务上,对未见过类别的汉字有出色的识别效果,同时对已见过类别的汉字也保持了较高的识别性能。总而言之,本文针对零样本中文文本识别,对单字识别和文本行识别进行了相关的探索与研究。希望本工作能够对从事相关领域的学者起到一定的启发作用。
其他文献
在“双碳”目标背景下,我国能源结构发生改变,使以煤电为主的电力行业面临不小挑战。煤电的碳排放占我国全行业碳排放的40%,因此煤电成为实现“双碳”目标的关键。基于我国“富煤少气贫油”,煤电仍将在长时间内是电力供应的基础负荷,因此积极地探索安全高效的火力发电技术,实现火电企业智能化、数值化、互动化转型显得尤为重要。锅炉爆管引起的非计划停机时间约占机组停机时间的40%,而随着火电机组进一步向低数量、大容
学位
文档版面分析是一种对文档的结构进行拆解、分析和理解的一项基本文档图像处理技术。该技术在人机交互、文档智能化理解、机器翻译等领域有重要的需求,是模式识别与文档理解领域的热门研究方向。现实生活中的文档种类繁多,包括杂志书本、古籍文档、票据文档、图表文档和手写文档等,不同类型的文档特点不同,应用场景也不同,因而对其进行版面分析的任务和目标也不同。针对复杂多场景的文档版面分析任务,研究的主要挑战是要处理种
学位
为了促进体育与养老产业的协调发展,并将产业融合理论更好地应用于体育与养老产业互动机制中,该文进行了体育产业与养老产业融合发展研究的概述。体养产业的融合发展研究具有非常重要的意义,伴随着我国人口老龄化进程加剧,养老产业的发展质量和运转效率举足轻重,而体育产业的良好发展,可以为老年人的身心健康保驾护航,而产业的协调融合可以达到事半功倍、互利共赢的效果。该文首先探讨了体育与养老产业融合协调发展的研究价值
期刊
目前,污水污泥的产量日益增长,人们对妥善处置污泥的需求日渐强烈。协同焚烧作为一种实现污泥减量化、稳定化、无害化和资源化处置的方式,受到了各地的推广。因为污泥具有复杂的成分,其燃烧反应比常见的燃料更为晦涩难懂,所以有必要研究污泥掺混燃烧过程的燃烧行为和动力学参数,为现有焚烧设施的改造设计及工况选择提供理论上的指导。本文基于热失重仪器,开展了珠海市政污泥与神华煤和印尼煤、广州市政污泥与城市生活垃圾的掺
学位
在可持续发展的时代背景下,风景园林作为人居环境科学学科体系的三大主导专业之一,对可持续发展有着义不容辞的责任。目前中国的风景园林实践中仍存在部分不可持续的开发建设活动,不利于生态文明的建设,因此有必要对可持续景观设计及其综合评价展开深入的研究。美国SITES(Sustainable Sites Initiative)评价体系是目前推广较为成功、行业内最受认可的可持续景观综合评价体系,然而现有的研究
学位
可再生能源应用技术发展,对各国的能源安全、环境保护等具有重大意义。中国将能源生产和消费革命定位至国家战略层面,风能发电占比迅速攀升,大大增加了电力系统中的不确定性。天然气机组具备灵活性和快速响应能力,电力、天然气和风能等多能互补的能源系统架构有利于能源消费效率的提升,电-气耦合系统(IEGS)的协同调度成为一个热门的研究课题。分布鲁棒优化通过为最坏情况概率分布提供最优解,来应对电-气耦合系统中风电
学位
随着分布式电源的接入,以及配电网接线的复杂化,配电网呈现出多变的网络拓扑结构。设备的配置相比以往的配电网结构变得更加复杂,运行方式的改变,对配电网的保护控制带来诸多挑战。现如今,IEC 61850标准的不断发展和完善,配电网逐渐具备实现网络化保护的条件。为了满足新形势下的配电网网络化保护控制的要求,本文对配电网网络化保护的采样延时特性进行分析,提出了一种基于自适应延时补偿的配电网网络化保护控制策略
学位
市政污泥是污水处理厂无法避免的附带产物,跟其他城市固体废弃物一样,市政污泥亟需先进的处理技术及高效洁净的处置方式。焚烧是目前污泥处置的有效方式之一,它具备废弃物处置减量化、无害化、资源化的三大优点。但是市政污泥中重金属和氮元素含量过高,焚烧过程中排放的氮氧化物和重金属会对生态环境产生二次污染。本文通过实验探明了市政污泥水热碳化调质后的特性变化规律,分析了调质污泥在焚烧过程的污染物排放特性,以实现清
学位
光催化分解水制氢是解决环境与能源问题的一个新途径。纳米纤维由于其尺寸可调、成分和形态可控等优势,成为光催化的热点材料,同时还能构建有机给-受体材料异质结,减少光生激子的复合,提高光催化效率。在本论文中,我们采用静电纺丝方法,通过控制给-受体的组成比例和纺丝时的工艺参数,制备一系列不同给-受体比例及形貌的给-受体纳米纤维,所制备的给-受体纳米纤维展现出高的光催化活性和良好的使用性能,并讨论了形貌和组
学位
在国家能源战略政策的驱动下,新能源发电在配电网的渗透率将日益增加,由此加剧了系统中的不确定性因素,这使得配网的安全稳定和运行调度面临新的挑战。传统确定性潮流计算难以应对复杂的随机性问题,因此引入概率潮流计算手段获取节点电压和支路功率的概率信息,从而更真实地反映出电网实际运行状况。在此基础上,针对光伏接入配电网后的电压风险评估及无功优化等问题展开研究,主要工作内容如下:首先,提出了一种适用于辐射型配
学位