多语言图文识别关键问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Jiang0596
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为传递信息的重要载体,文本图像在人们的生产生活中扮演着越来越重要的角色。本文以文本图像为主要研究对象,对图文识别算法及其下游应用算法进行了深入研究。首先,本文研究了低资源语言的图文识别问题。低资源语言是指数据资源相对匮乏的语言。在多语言的图文识别领域,现有研究已经在图文数据资源较多的语言上实现了令人满意的识别性能。对于低资源语言,现有的方法并没有获得良好的图文识别效果,不能满足实际的应用需求。因此,如何解决图文数据资源匮乏的问题,提高低资源语言的识别准确率是一项重要挑战。其次,随着跨国贸易和跨国旅游的日益发展,现实场景中多语言共存的情况越来越常见。许多相关应用只有在文本图像的语言类别已知的情况下才能正常地发挥作用。然而,现有的研究忽略了对共享同一字符表的不同语言的场景文本图像进行区分。为了解决现有研究存在的不足,本文研究了自然场景文本图像的细粒度语言判别问题。最后,文本图像检索是图文识别算法的一个重要应用。现有的大部分场景文本检索研究以图像中包含的文字内容为线索完成检索任务。很多情况下这种单一的线索不能很好地满足人们对检索的实际需求。在这样的背景下,本文研究了场景文本图像的细粒度检索问题,综合考虑文本图像中的视觉目标和文字内容来完成图像检索。本文的主要贡献和创新点如下:1.以印地语为低资源语言的代表,研究了自然场景文本识别问题。一方面,本文根据印地语的特点设计了印地语文本图像合成引擎,合成了大量图文数据用于支撑模型的训练。另一方面,本文设计了印地语文本识别网络。实验结果表明,本文的方法在印地语图文识别任务中的识别准确率超越了已有研究中的最先进方法。2.研究了自然场景文本图像的细粒度语言判别,解决了已有研究无法区分共享同一字符表的不同语言的文本图像的问题。不同于已有研究中的方法,本文提出的语言判别网络构建了图像中文本的语义表征,并基于语义特征预测文本图像的语言类别。语义特征为判别网络利用语言知识提供了载体。实验结果表明,本文方法的性能显著优于已有研究中最先进方法的性能。3.研究了以自然语言描述的查询语句检索文本图像,所提出的方法以细粒度的方式考虑了用户检索文本图像时对于图像中文字内容和视觉目标的不同要求。给定一个自然语言描述的查询语句,本文的方法从图像中文字内容的角度和视觉目标的角度分别构建候选图像与查询语句的匹配特征,综合利用两种角度的匹配特征计算匹配度得分。实验结果表明,本文的方法有效应对了不同检索意图混在的挑战。
其他文献
深度卷积神经网络(Deep Convolutional Neural Network,DCNN)是一类令人瞩目的深度学习算法模型,在诸多实时计算机视觉任务和图像处理任务中取得了巨大成功。然而,包括ResNet和VGG网络在内的许多先进的DCNN模型往往含有数十亿个学习权重,且其推理需经历数十亿次浮点运算(FloatingPoint Operations,FLOPs),这对有限的内存资源来说是一个严
学位
本文使用稀土催化剂在有机硼盐[Ph3C][B(C6F5)4]与烷基铝AliBu3的活化下,催化生物质来源共轭双烯烃、极性烯烃(共)聚合,制备出一系列新型高分子材料。系统研究了催化剂结构及其聚合工艺对聚合活性、立体选择性、区域选择性、分子量、极性单体插入率、序列分布等的影响规律,并利用DFT计算揭示相应的聚合机制。此外,对含反应基团的聚合物进行后功能化反应,制备一系列功能化立构规整聚合物,并对聚合物
学位
面对日益增长的人口数量,为加强社会治安防控,利用人工智能保障公共安全、构建智能视频与图像分析系统成为了社会关注的焦点。人群计数是构成智能视频及图像分析系统的重要基础之一,其可以自动估计图像中的人群总数和空间分布位置。尽管已有大量优秀的人群计数算法被提出以应对实际应用场景中的多重挑战,但仍存在一些固有的难点亟待解决,如人群尺度变化、背景干扰和尺度变化双重挑战并存、标记数据有限、人群密度分布不均匀和跨
学位
生命早期的炎症事件,如孕期、出生后和儿童期经历的创伤或病毒感染等,均能显著增加个体在青春期甚至成年后患上情感障碍疾病的风险(如焦虑和抑郁等),其发病机制尚不完全明确。临床相关研究表明,抑郁症患者大脑的前扣带回皮层(ACC)突触密度下降并伴随炎性因子水平升高,且炎症强弱与抑郁程度呈正相关。小胶质细胞是大脑内常驻的免疫细胞,病理状态下,活化的小胶质细胞是脑组织炎症状态的指挥官,与抑郁症发生发展密切相关
学位
生物正交反应(Bioorthogonal reaction)是一类可以在生理环境中快速且特异地发生的化学反应,具有不干扰固有的生化过程以及不会对生物体及目标生物分子产生破坏的特点。由于其高选择性和高效性,使其成为生物医学监测和调节生物系统的一种强有力方法。点击化学(click chemistry)作为典型的生物正交反应在生物医学和纳米药物工程领域中受到广泛关注。铜催化的叠氮-炔烃环加成反应(CuA
学位
硝酸铵作为一种重要的化工产品在工业与农业领域得到了广泛和重要的应用,然而,由于其本身具有受热分解的性质,不当的储运或使用过程中可能发生热分解甚至爆炸,特别是当硝酸铵中含有不同添加剂或杂质时,其危险性往往会发生本质变化,历史上国内外也因此发生过大量的灾难性事故,造成了特别重大的人员伤亡和财产损失,以及巨大的社会影响。本文针对硝酸铵在实际生产、储存和使用过程中存在的现实安全问题,系统研究不同添加剂(或
学位
在神经系统的研究中,获得完整的神经解剖学结构被认为是理解大脑功能和神经精神疾病的基础。因此,在欧美中日等国开展的脑计划中,常将高分辨大尺度的哺乳类动物全脑图谱绘制,作为优先部署的领域。组织透明化技术是近年来发展起来的进行组织三维成像的新技术。该技术通过采用多种不同的策略降低生物组织对光的衰减,可以完成小鼠全脑的透明化,进而获取大体积样本精细三维结构,为在三维水平研究生物组织的结构提供了强有力的工具
学位
生物分析以研究生物分子含量、结构和功能为主要内容,是现代分析技术的重要组成部分。其中,生物传感器作为多学科交叉的生长点,涉及物理、化学、生命科学和信息科学等众多学科和技术,是进行生物分析的主要方法之一。基于准确、快速、操作简便以及能够重复使用等特点,生物传感器在分析化学、生命科学研究、临床分析与诊断、环境质量监测以及食品科学等众多领域都有着广泛的应用前景。本论文首先对生物传感器的概念、原理和分类进
学位
随着人们对肿瘤代谢复杂性的了解逐渐深入,代谢重编程已成为公认的恶性肿瘤重要特征之一。与正常组织和细胞相比,癌组织和细胞中存在着大量的代谢异质性和代谢重编程现象。肿瘤发展的不同阶段依赖的代谢表型是不断发生变化的。为了满足肿瘤的生存、增殖和转移需求,肿瘤细胞中的代谢酶通常是多功能性的。因此,目前关于肿瘤细胞中代谢酶的多功能的研究也越来越丰富。例如有研究发现:糖酵解通路中的一个关键酶,磷酸甘油酸激酶1(
学位
20世纪以来,以自由探索为特征的小科学研究出现了全新的取向,国家化(如中国、美国)和区域化(如欧盟)的大科学研究更为普遍,相应的大科学组织模式具有明显特征和重要作用。大科学思想源于苏联的规划科学体制,大科学实践始于美国的“曼哈顿计划”。嗣后,美国、苏联、英国、法国、中国等争相组织实施大科学项目,产生了一批影响世界政治、经济、科技的成果。1960年代初,温伯格(1961)、普赖斯(1962)、钱学森
学位