面向多领域政策的文本分类技术研究与应用

来源 :中国科学院大学(中国科学院沈阳计算技术研究所) | 被引量 : 0次 | 上传用户:gdcjr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据的时代中,海量多领域政策文本出现在在日常生活中,如果可以有效利用这些多领域政策文本数据,不仅可以有效的帮助人民理解、维护政策,同时可以协助国家规范执政手段、提升执政效率。正因如此,许多研究人员围绕政策文本展开了研究,希望可以更有效地应用这些数据。作为自然语言处理的重要任务之一,文本分类是许多任务的基础,本文利用多个领域政策的文本分类技术,为多领域政策知识图谱的构建项目做出支撑,针对多领域下的政策文本分类提出了相应的模型,以提升分类任务的精确性。本文针对多领域的政策文本,提出了一种高效准确的通用政策文本分类模型BERT-RC,在预训练模型的基础上,进一步改进文本表示,将更多的文本上下文信息融入到文本特征表示中。模型首先通过预训练模型得到优秀的词向量表示,然后通过双向循环网络充分提取文本的上下文特征,接下来通过卷积神经网络强化局部的文本特征提取、优化文本信息的捕捉、突出内容的特征,最后通过这些文本特征得到文本分类的结果。在政策文本数据上,BERT-RC模型相比于基线模型F1值均有提升,实验表明,本文提出的BERT-RC模型可以优化文本特征表示,提升模型的分类精度,消融实验也证明了模型各个模块的积极作用。同时针对层级性多元文本分类任务,提出了一种快捷有效的HFT-Trans模型,使用Transformer和BERT词向量优化文本特征表示,并利用分层的模型结构解决层级性多元文本分类中下层类别的文本训练数据过少、分类粒度更细致的问题,将上层的模型参数迁移到下层的模型中,使下层模型包含上层模型的分类信息,利用上层的数据促进下层的分类。同时加入了对抗训练,使复杂模型在少量数据集上避免过拟合的问题,动态学习率也加速了模型的最终收敛,在此基础上,最后还加入了集成学习,验证了集成学习的网络确实优于单一网络,可以提升模型的泛化能力。在层级性多元本分类任务场景下,本文提出的HFT-Trans模型取得了较好的结果,实验表明,HFT-Trans模型可以很好的处理层级性多元文本分类任务,提升任务的精度。
其他文献
文化是一定政治、经济的反应,也是一个民族的精神支柱和图腾。文化的重要作用体现在中国革命、建设和改革全过程。毛泽东吸收中国传统文化的精华和马克思主义文化理论的精髓,与新民主主义革命的现实实践结合在一起,分析和研究古今中外的文化,思考文化的本质以及发展规律,创造出代表无产阶级的新文化——新民主主义文化。新民主主义文化思想理论形态完整,实现了马克思主义文化理论的本土化,同时也是毛泽东思想体系中的一个重要
学位
国家重视科技创新,每天出台大量的科技政策推动科技发展,相关企业及科研人员需要时刻关注不同政府网站、官方app、官方微博等多个来源的海量科技政策信息,难以从中高效、准确地获取有效的政策信息。技术能够将一大段文本信息通过一小段精简的文本信息进行概括,只保留其中的关键信息,能够缓解科技政策信息过载的情况。科技领域的政策文本往往包含大量冗余的非关键信息,当前的文本摘要模型很难发现和理解其中的政策名、发文字
学位
我国《专利法》第四次修改与《药品专利纠纷早期解决机制实施办法(试行)》的颁布标志着我国全面建立药品专利链接制度的步伐已迈出。在国家提出要加快形成国内国际双循环协同促进的新发展格局的背景下,如何应对药品专利链接制度建立所面临的挑战,是新形势下我国医药专利保护与发展的重中之重。药品专利链接制度是在药品领域存在的一项特殊机制,起源于美国Hatch-Waxman法案。该制度明确规定了原研药一方在披露药品专
学位
随着社会不断发展,法律关系也日益复杂化,当事人之间的纠纷常对案外人权益产生影响,甚至出现当事人恶意诉讼损害案外人合法权利的情况,亟需建立健全有关法律制度,以保护案外人的合法权益。基于现实需要,我国逐步构建了以执行异议、执行异议之诉、第三人撤销之诉、案外人申请再审为主的事后救济途径,辅之以第三人参与诉讼的事前保障机制的案外人权利救济制度体系。对民事案外人权利救济制度的研究,主要采用比较研究法、历史研
学位
随着城市化进程的不断加快,空气污染问题作为我国环境保护工作中的重要一环日益受到人们的关注。人们的健康情况与空气质量的分布情况有着密不可分的联系,如果能实现对空气质量分布情况的实时掌握,对居民进行户外活动的抉择以及环保部门的环境治理工作都有非常重要的参考意义。因此,尽快建立完善的空气质量监测网络成为了快速发现和处理空气污染问题的关键。空气质量监测微子站监测凭借其体积小、可移动、无需搭建站房等优势成为
学位
本文基于深度学习目标检测算法,设计提出了一种针对小目标异物的快速定位和检测算法,并将其应用到机场跑道小目标异物识别与检测业务场景中,同时自制关于机场跑道小目标异物数据集,在此基础上为了日后更好的移植于视频监控等硬件设备,基于Open CV平台进行目标的定位及检测。主要工作包括:为了提升检测精确值和加快速度,本文将结合目标检测算法YOLOv4,针对机场跑道小目标异物的特征进行算法改进。首先替换换掉主
学位
根据中国慈善联合会发布的《2020年度中国慈善捐赠报告》显示,2020年我国共接收境内慈善捐赠2086.13亿元人民币,比2019年增长38.21%,占全国GDP总量的0.21%。随着慈善事业的发展,越来越多的民众参与慈善事业。与此同时,传统慈善系统中一直存在信息化程度不高、资金流向不清晰、缺乏透明度和信息容易篡改等问题。随着区块链技术的发展,其去中心化、不可篡改、可溯源等特点受到相关学者的广泛关
学位
随着工业互联网的发展,各大生产装配企业为满足市场多样化需求,纷纷投入企业高度智能信息化的建设中。传统企业的生产装配任务一般交由专业的管理人员进行分配调度,需要工作人员具有丰富的排程经验。但随着客户需求量的增加与产品种类的丰富,单纯依靠人工方式进行的排程调度过程较为复杂,计算量较高,进行的任务分配调度效率低下,实际工序作业时间长,影响了企业产出成果。因此在工业互联网快速发展的今天,企业智能化的信息管
学位
小学数学综合实践活动具有非常显著的思考性、生活性和实践性等特点.学校在实际教学时,应充分发挥综合实践活动具有的积极作用,着力提升学生综合素养.基于此,文章在对小学数学综合实践活动、数学素养等概念进行界定后,结合综合实践活动课开展实际情况,提出应通过合理设定教学活动、创设教学情境等方式,不断提升此类课程的开展质效,为数学学科教学工作开展提供科学指引.
期刊
当今互联网存在大量暴力、政治敏感信息图片,这些敏感信息图片正在不断侵蚀当下的互联网环境,对各类人群造成严重的影响。随着社交平台以及短视频应用的兴起,加快了敏感信息的传播。国家对于涉暴、涉政等敏感信息的传播进行持续打击,不断地出台并完善相关法律法规。而目前对于这些敏感信息图片的主要检测方式仍是依赖人工审核机制,巨大的人工成本以及时间成本正在不断制约着对敏感信息图片的检测能力。随着计算机硬件以及深度学
学位