基于深度学习的电子公文智能审查

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:guanhuaicn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着办公自动化技术的迅速发展,电子政务成长为现在社会信息化发展的重要领域,同时电子公文也得到了很好的应用,但电子公文的审查却面临着许多挑战性问题。另外,深度学习在计算机视觉和自然语言处理应用上都有突破性进展,并在图像和文本处理上有一定的应用前景。因此,针对电子公文的智能审查,提出基于深度学习的算法进行研究,具有一定的社会意义和实际应用价值。针对电子公文的公文印章和公文正文的特点,研究有效识别印章内容的模型和有效提取公文正文信息的模型。具体地,针对公文印章的识别问题,根据其弯曲的特性,首先利用CRAFT模型对印章图像进行文本检测。然后根据检测结果中单字符中心区域的概率和相邻字符区域中心的概率结果对印章图像进行几何后处理,得到接近平行的文本图像,再送入CRNN网络模型中,进行识别。最后,为提高其识别的准确率,采用FASPell网络对识别的结果进行文本字形上的矫正。另外,针对电子公文的正文信息提取问题,同样对原图像进行文本检测和识别,然后将识别结果送入CARSEL网络对其进行关系抽取,根据特定关系的主体和客体信息获取实现相关信息的提取。实验测试中,在CRAFT模型的处理下,图像的平均处理时间为11.9ms,相邻字符区域中心概率加强处理即模型优化时,平均处理时间为4ms;识别实验中,将CRNN网络与Densenet网络相比,CRNN网络在收敛速度上更快,并且效果更好,最后在测试集上的结果损失为0.226,准确率达到了96.2%,平均识别时间为9.53ms;矫正实验中,在Bert原本的预训练模型上进行微调,并采用CSD算法对其进行过滤,最后在字符级的检错和纠错上分别得到了89.55%和72.19%的精确率。CARSEL关系抽取实验中,在中文和英文上准确率分别达到了77.23%和93.13%。
其他文献
煤层气是指赋存在煤层及煤系地层中以甲烷为主的烃类气体,煤层气的高效开发利用对保障煤矿生产安全、缓解能源供需矛盾、减少温室气体排放具有重要意义。滇东黔西地区作为我国南方重要的煤层气资源赋存区,具有丰富的煤层气资源,但是由于该地区煤层赋存地质特点,常规煤层气开发手段无法完全适用,且在该地区煤层气开发过程中层间干扰现象制约了煤层气产能,降低了煤层气开发效率。为此,本文在前人研究基础之上,基于滇东黔西地区
垃圾分类是当前社会的一大难题。其中合理、准确的垃圾分类投放是实现垃圾分类的重要环节。虽然国家制定了相关政策法规,但因人们缺乏分类知识和分类意识,垃圾分类投放推进工作仍旧困难重重。随着人工智能技术的落地应用,基于卷积神经网络的智能化垃圾分类技术有望实现垃圾投放过程中垃圾的准确自动分类。但因成本、体积与能耗受限,智能分类垃圾桶的研制面临着神经网络模型轻量化、高能效嵌入式目标分类系统设计、系统低功耗设计
在过去几年里,随着人工智能技术的日新月异,移动互联网得到了跨越式的发展,基于位置的移动服务也逐渐趋于成熟。人们使用这些移动服务不仅可以进行路线的导航,还能搜寻附近感兴趣的地点。因此,诞生了大量的与用户出行轨迹相关的位置数据。基于这些位置数据,可以充分地挖掘用户的出行规律与个人偏好。这不仅可以为用户生成个性化的推荐,丰富用户的外出经历,还可以为第三方商家带来巨额的商业利益,带动景点、商圈的发展。兴趣
目前,生活垃圾焚烧处理在我国已经成为主要处理方式,随之而来的结果是生活垃圾焚烧飞灰的产生量剧增。《“十三五”城镇生活垃圾无害化处理设施建设规划》指出,到2020年我国生活垃圾焚烧飞灰产生量预计达1000万吨。尽管《生活垃圾焚烧飞灰污染控制技术规范》(HJ 1134-2020)规定,生活垃圾焚烧飞灰安全化处理之后可进入生活垃圾填埋场填埋处置,但以填埋作为消纳方式的飞灰处置能力与其庞大的产生量不成正比
首先,本文梳理海峡两岸寿险公司责任准备金和审计委员会制度的相关政策,阐述研究审计委员会制度对寿险公司责任准备金影响的理论实践意义。本文先对国内外学者的相关研究文献进行概述,并分析寿险公司责任准备金的影响因素,再梳理审计委员会制度对寿险公司责任准备金影响的相关理论。其次,海峡两岸几乎同时实行审计委员会制度,但效果却大相径庭。近年来,我国台湾地区审计委员会制度发展进程相对大陆更快,本文以我国台湾地区为
制造业是社会经济的主体,在中国制造2025的背景下,制造业对加工工艺和加工精度提出了更高的要求。微机电系统具有微型化、智能化、低能耗、多用途、高集成度和适于大批量制造等优点,近年来,在工业精密定位、医疗器械、智能穿戴、航空航天以及国防武器装备等方面广泛运用。微驱动器是微机电系统中的执行机构,作为系统的核心器件直接关系到设备的稳定性、可靠性和精度。目前研究的微驱动器存在响应时间长、体积过大、集成化程
凋落物是森林生态系统重要的结构和功能单元,是土壤肥力长期维持的基础和林地有机质的主要贮藏场所,具有重要的生态系统功能。当前有关森林凋落物的研究主要聚焦于群落凋落物总量及其季节动态,或特定物种凋落动态及其生物学特征上,而关注群落凋落物量与其主要组成物种凋落物量之间关系的研究较少。凋落叶是森林凋落物的主要成分,也是凋落物分解和物质循环最活跃和最重要的部分,凋落叶养分特征是影响其分解过程的重要因子。因此
随着通信技术及电力电子技术的飞速发展,开关变换器在便携式电子、军事通信系统、医疗设备、车载电子、航空航天等领域得到了非常广泛的应用。开关变换器又称开关电源,是一种高频电能转换装置,其功能是将一个位准的电压以不同形式的拓扑架构转化为用户所需的电压或电流,开关电源的输入多半是交流(AC)或直流(DC)电源,而输出多半是需要直流电源的设备。从其电压转换结果上看,可将其分为升压型(Boost)、降压型(B
如今,越来越多的新型移动机器人已经在我国航空航天、紧急救援、仓储物流等各个应用领域获得了广泛的研究和应用,而在实际的应用中,移动机器人如何通过自身装配的传感器设备完成对位姿的估计,从而实现自主导航成为关键的科学技术课题。因此同时定位以及环境地图构建的技术问题,即SLAM(simultaneous localization and mapping)应运而生。解决SLAM问题常用的方案主要有两种:视觉
众所周知,使用机器学习方法的推荐系统已经成了数据挖掘领域下最具有活力的子领域之一,同时也被广泛应用于电子商务等领域。一个有效的推荐系统可以很大幅度的提升一家公司的销售量。有关消费者行为心理学的研究表明,当消费者在做购物决策时,有两类决策规则,分别是补偿(Compensatory)规则和非补偿(Non-Compensatory)规则。现有的模型大多是假设消费者采用补偿规则,也就是基于商品不同方面进行