购物票据图像的文本识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:L_grey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
购物小票票据是线下消费过程由商户提供给消费者留存的购物凭证。由于线下零售销售系统的独立性,海量线下消费数据被不同品牌、商铺形成的“信息孤岛”所隔离。在此背景下,对购物小票票据进行数字化信息结构抽取可以为智能零售提供针对商品运营和供应链优化的精准数据分析。传统光学字符识别(Optical Character Recognition,OCR)系统在扫描文档图像的文本检测和识别任务上表现优秀。但是,由于自然场景下拍摄环境的不确定性,手持设备拍摄的购物小票票据图像对OCR方法提出了新的挑战。购物小票票据图像具有文本形状不规则、文本行密集等特点。面对文本形状不规则的挑战,本文选择了基于语义分文本检测模型,并提出基于文本实例骨架中心聚类的文本检测后处理方法。该后处理方法针对语义分割特征图进行文本行骨架中心生成与文本实例边缘像素聚类,有效提高文本检测模型对文本实例边缘轮廓的识别能力。针对不规则文本的识别问题,本文提出一种基于Transformer的文本识别网络模型SRRNet(Shopping Receipt Recognition Network),该模型利用自适应2D空间注意力模块提取图像特征的2D相关性信息,从而解决识别过程中序列解码的注意力漂移问题。SRRNet模型在本文构建的购物小票票据识别数据集上取得85.82%的文本行准确率。受益于Transformer的并行处理能力,本文提出的SRRNet识别模型取得了准确率高、推理速度快的均衡水平。大规模训练数据是提升现有OCR方法性能的关键之一。针对现有购物小票票据数据的长尾分布问题,本文提出了基于条件生成对抗网络的文本编辑方法Text Transfer Net。该方法通过替换真实图像的目标文本实现对文本内容的定向编辑。该方法将文本编辑任务分为三个子模块:(1)背景文字擦除;(2)文字内容替换;(3)文字背景融合。针对购物小票文本识别数据集的数据扩充实验证明,本文方法有效地提升文本识别模型在少样本场景或长尾数据场景下的鲁棒性和准确率。
其他文献
目的抗生素暴露通过诱导肠道菌群变化从而引起色氨酸代谢障碍可能是抑郁症发生发展的一个重要因素,但缺乏人群研究证据。本研究描述了老年人体内12种抗生素及8种色氨酸及代谢物水平的分布,分析了抗生素暴露与老年抑郁风险的关联,并进一步探究了色氨酸代谢在联结抗生素暴露与老年抑郁关联中发挥的作用。方法2016年6~9月,采用分层整群抽样的方法,在安徽省六安市调查1080名老年人,根据研究目的本研究纳入986名研
学位
分钟级定量降水估计主要是通过多种气象观测信息获取某个范围区域内的序列降水信息,在降水尺度、时间分辨率和及时性上有极高的要求,目的是向决策者提供未来的、连点成面和逐分钟的降水预报变化信息。分钟级定量降水估计领域依赖于定量降水估计算法的发展,而目前的定量降水估计算法大多使用传统方法或者机器学习方法,这些方法大多都缺乏对多源异构气象数据的融合处理,难以适应实际气象业务的快速发展。本文主要针对气象领域中分
学位
目的本研究探讨孕妇睡眠模式、妊娠期心血管健康(cardiovascular health,CVH)和子代出生体重三者之间的关系,验证妊娠期健康的睡眠模式是否能够改善较差的CVH状况导致的子代不良出生体重,为科学指导妊娠期睡眠,促进母婴健康提供科学依据。方法本研究基于合肥市母婴健康队列,从合肥市三家医院招募了9 013名定期产检的孕妇,自基线(16-23周)随访至分娩。在基线时通过问卷调查收集孕妇的
学位
目的描述大学生睡眠时型和抑郁症状的流行状况,分析睡眠时型与抑郁症状的关联强度。采用生物学指标暗光褪黑素初始释放时间(dim light melatonin onset,DLMO)验证大学生睡眠时型与抑郁症状的关联效应,并从表观遗传学角度进一步探讨生物钟基因DNA甲基化在睡眠时型与抑郁症状纵向关联中的调节效应。方法2019年4—5月,采用整群随机抽样方法在安徽省合肥市某医科大学2个专业和江西省上饶市
学位
金融要素抽取,旨在应用信息抽取技术,从合同、计划书中提取出能够反映金融文档关键性信息的实体和短语等要素,实现对金融文档的结构化处理。与现有抽取任务相比,金融要素抽取任务存在长尾分布、细粒度、长文本长要素以及上下文受限等复杂问题,现有模型在此类复杂环境下的抽取效果不佳,无法完全满足任务需求。因此,探索具备复杂场景抽取能力并能解决实际应用需求的金融要素抽取模型,是一项具有学术与应用价值的研究。针对长文
学位
气旋气象作为极端的灾害性气象现象,能够在短时间内造成剧烈的气候变化,最典型的例子是极地涡旋气象与台风气旋气象。气旋气象的发生会对人类生产生活造成巨大的影响,甚至会影响整个大气系统的正常运转。随着卫星遥感技术的快速发展,使用卫星遥感监测数据对气旋气象进行监测识别与分析,及时采取防护措施,是降低该类灾害性气象影响的重要方式。目前基于卫星遥感图像的气旋监测研究方法普遍存在监测精度较低和算法鲁棒性不足等问
学位
目的基于医学生童年期不良经历(Adverse childhood experiences,ACEs)暴露类型和时相探索ACEs暴露模式,分析ACEs暴露模式与医学生抑郁、焦虑症状发展轨迹的关联。方法以安徽省两所医学专科学校大一学生为调查对象,2019年11月-12月进行基线调查,之后每半年进行一次随访,共随访两次,收集有效问卷3662份。使用儿童期虐待问卷、家庭功能不全问卷、WHO社区暴力与同伴欺
学位
目的依托出生队列,分析孕早期妊娠相关焦虑(pregnancy-related anxiety,PrA)对3~7岁儿童饮食行为的影响,并探讨3~7岁儿童近半年情绪和行为问题在其中的作用。方法2008年10月至2010年10月在安徽省马鞍山市妇幼保健院招募孕早期建档并同意加入中国安徽出生队列的孕妇,随访至子代学龄前期。采用自编《孕产期母婴健康记录表一》在孕早期收集孕妇及其丈夫人口学特征和孕期等相关信息
学位
目的评估亲子分离经历对学龄前儿童情绪与认知发育影响的敏感期和累积效应,探索端粒长度在亲子分离经历与学龄前儿童情绪与认知发育关联中的作用,为预防早期亲子分离带来的健康危害提供理论指导和干预框架。方法于2021年5月采用整群抽样方法招募芜湖市南陵县9所幼儿园2729名学龄前儿童,其中2447名儿童(1266名男童,占比51.7%)有完整问卷信息,平均年龄为(4.88±0.96)岁。采用父母问卷(电子问
学位
目的探讨母体孕早、中、晚期及脐血血清中7种炎症因子浓度与学龄前儿童智力发育水平之间的关联,揭示关联的敏感期及其性别差异,为预防儿童智力发育损伤和发育起源性疾病的发生提供理论依据。方法本研究依托马鞍山优生优育队列(MABC),最终纳入1 641对母子对进行分析。在母亲孕早、中及晚期产检时采集空腹外周静脉血,并在分娩时采集脐血,使用Luminex液相悬浮蛋白技术检测样本血清中7种炎症因子浓度,包括干扰
学位