“长尾分布”的古文字分类算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:betterman_swp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究甲骨文、商周金文、春秋楚简和魏晋南北朝石刻字的智能识别。它们历史悠久,与现代汉语差别较大,有较高的识读门槛,使用人工智能方法进行识别有较大意义。文字使用时有常用字和偏僻字的区别,对应到本文的数据集来说,即存在分布不平衡的情况,某些常用的字可能有上千张样本,某些偏僻字可能只有几十张样本。如果直接将原始数据放入神经网络中进行训练必然会导致模型产生较大的偏置,模型会学到很多样本数量多的文字的特征,导致在样本数量少的文字上识别效果较差。因此本文主要工作为在古文字数据分布失衡的现状下,提高模型在样本较少的类别上的识别精度,具体工作如下:1.从改进训练方式的角度出发,探究了两阶段训练法(Two-phase Train,TPT)算法的有效性。将训练过程分为两个阶段,首先是平衡学习阶段,然后进入原始分布学习阶段。实验表明TPT算法具有一定提升效果。2.借鉴迁移学习的思路,提出了基于“头部信息”的特征迁移算法(Feature Transfer Based on Head Classes,FTBHC)。本文数据集均为古汉字,同一种数据集内虽然部分字的样本数量差别较大,但是形态上具有相似性,因此考虑将头部类(样本数量较多的类别)的特征迁移给尾部类(样本数量较少的类别)使用,提出FTBHC算法,数据表明FTBHC算法效果优于TPT算法。3.顺着FTBHC的思路,又提出了基于Shike_Set的特征迁移(Feature Transfer Based on Shike_Set,FTBS)算法。四种汉字虽然属于不同时期,但是存在演化的关系,彼此之间又具有相似性,而石刻字数据集(Shike_Set)有最丰富的样本信息,将其作为特征迁移的基础是最佳选择,数据表明FTBS算法效果优于FTBHC。4.不借助其他数据集进行特征迁移的情况下,在自监督学习的框架下使用效果较好的不平衡分类算法,提出了基于自监督预训练的双分支网络算法(BBNSSP)。自监督预训练(Self-supervised pre-training,SSP)算法对于提升不平衡分类问题有不错效果,双分支网络(Bilateral-Branch Network)算法就是为解决“长尾”分类问题量身定做的,实验数据表明将两者结合可以取得媲美FTBS算法的效果。本文进行了多组实验来证明前面提出的算法的有效性,虽然算法的效果有差别,但是适用场景不同,因此需要针对不同的场景选择最合适的算法。虽然本文研究内容主要针对古文字领域,但是研究思路可以推广到现实世界中其他具有“长尾分布”的数据分类。
其他文献
微波微等离子体是指使用微小功率微波源激励产生的,并且放电尺寸非常小的等离子体。微等离子体具有稳定性好、电子密度高、持续时间长等优点。由于一个单元的微等离子体尺寸无法大规模使用,因此可以对微波微等离子体阵列源进行深入研究,其前景非常广阔。本文以基于微带谐振器的2.45GHz微波微等离子体阵列源及其特性为研究对象。首先利用HFSS软件仿真,设计了一种微波微等离子体阵列源的单元结构以及13单元线性阵列结
卷积神经网络(Convolutional Neural Network,CNN)在人工智能领域取得巨大成功,被广泛应用在目标检测、机器视觉、图像识别等方面。由于串行执行进程的通用处理器无法高效地处理CNN愈加庞大的计算量,相比之下,现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)低功耗、高度并行的优点很适合用于加速卷积神经网络的推理过程。为了进一步适应工
互联网中的数据规模越来越大,人们对数据中心的存储系统的性能也提出了更多的要求,尤其在数据存储和网络传输方面。NVM和RDMA为数据中心存储系统的设计带来新的机遇。由于现代处理器内部缓存的设计和RDMA没有对持久化写入NVM的保证,在使用持久化内存时,仍然存在数据一致性的问题。这为基于RDMA和NVM的一致性机制的设计带来了挑战。本文在调研测试了RDMA持久化写入NVM的方式后,总结出在不同场景下使
塑料污染是全球关注的重要环境问题之一。土壤是塑料废弃物的主要沉积地,土壤表面的塑料会经环境作用力破碎成尺寸1 mm微塑料颗粒在表层土壤水平方向上的迁移距离最短,迁移距离为12 cm,<0.3 mm的微塑料在土壤垂直方向上迁移最深,为7 cm。泡沫在土壤表层水平方向上的迁移率最高,为2.08±0.42%,其次是颗粒。纤维和薄膜微塑料更容易径流入水体中,总量分别达到1.93±0.65%和2.07±0.
海岸带湿地是在陆地和海洋之间的生态过渡带,是地球上生产力最高的生态系统之一。由于围垦等人类活动的加剧和海平面上升等影响,海岸带湿地正受到严重威胁。国内外海岸带生态修复的实践成果显示,若措施得当,新恢复湿地可以重新获得生态功能,并促进其进一步发育。如何结合湿地恢复强化生态功能,发挥对人类有益的生态系统服务是生态修复领域的热点之一。基于此,本研究依托杭州湾北岸金山岸段生态整治修复项目,以所建成的鹦鹉洲
垃圾渗滤液的高效处理一直是人们密切关注的问题。随着垃圾填埋时间的延长,垃圾渗滤液中的可生化有机物逐渐减少,而氨氮浓度不断升高,逐渐形成了老龄垃圾渗滤液。老龄垃圾渗滤液由于可生化性较差,在生化处理工艺中脱氮困难,也面临碳源的投加量控制及种类选择等关键性问题。此外,渗滤液中富含易传播扩散的抗生素抗性基因(ARGs),其在老龄垃圾渗滤液处理过程中的变化及影响特征尚不明确,在处理过程中的变化是否会受到碳源
近年来采用减量型有机垃圾生物处理机对厨余有机垃圾就地就近处理在我国许多城市得到应用,但其运行过程中产生的高浓度尾水排放问题也越来越引发关注,并在一定程度上限制了其推广应用。目前针对此类尾水的高效净化处理工艺研究还鲜有报道。本论文以减量型有机垃圾生物处理机尾水为处理对象,针对其有机物和悬浮物浓度高的特点,通过构建厌氧-好氧小试反应器装置开展研究,开发了一种高效的机械搅拌厌氧生物反应器(MAAB)-好
在复杂网络领域中,流行病传播动力学的阈值识别是一个热点问题。爆发阈值对于流行病的评估、预警和防控具有很重要的指导作用。针对不同类型的动力学过程和不同结构的网络,流行病爆发阈值的识别结果往往会有较大差异。传统的流行病爆发阈值的识别方法,如理论解析和数值模拟等,都存在一定的局限性。本文主要运用机器学习理论和方法对复杂网络上流行病传播的阈值识别问题进行深入研究,通过经典的易感-感染-易感(Suscept
GitHub已经不仅仅是一个代码托管平台,其孕育的各种开源社区不仅造福于企业与开发者,同时也在日渐深远地影响着我们的日常生活。很多开发者把GitHub当做自己的另一份简历,因为上面非常清晰了记录了开发者的行为轨迹。但是对于招聘者来说,这些概念可能是模糊的,本文的角度就是对开发者和招聘广告进行匹配,从而进行职位的自动推荐,解决开发者和招聘者之间的语义鸿沟。推荐算法的研究一般需要用户-项目评分数据集,
车道线检测技术是智能交通技术发展的关键技术之一,在很多新型汽车上已经预装了包括车道线检测的高级辅助驾驶技术,可以满足一些基本需求。在正常的道路场景中,很多技术能够取得良好的检测效果,但是实际的道路场景是包括车道线磨损、阴雨天气、眩光等因素,业界很多学者也已将目光转移到这类场景下的检测。其中深度学习方法在车道线检测领域表现出更高的精度和鲁棒性,为更多场景的车道线检测提供了可能。所以,本文基于深度学习