四险一金领域开放网络文本分类的方法及应用研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:jiesenbone23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今信息资讯极度丰富的背景下,文字作为重要传播媒介承载着繁杂多样的信息。传统的文本处理方法在面对海量的文本资源已显得十分的低效。为了满足这些处理文本的需求,催生了一系列的文本处理研究工作。文本分类作为文本数据检索和分析的基础技术之一,能够将文本资源依据任务目标或后续分析工作需求有结构的组织起来。所以,文本分类研究因其实用价值,在自然语言处理领域受到了大量的关注。四险一金具体是指国家规定给予劳动者的养老保险、医疗生育保险、失业保险、工伤保险,及住房公积金;我国的社会保障制度发展较晚,为了适应当前四险一金领域的变化,方便工作的开展,减少投入的成本,可以考虑构建领域知识图谱使领域工作更加智能化。而在这之前,就需要基于语料进行文本处理和知识提取。因此需要获取大量的文本资源并构建领域语料库。同时,为了使知识图谱在应用时能够从文本资源中的发掘类别信息,开展领域文本分类的研究同样具有重要的意义。基于上述原因,本文针对四险一金领域的文本分类方法及应用进行了研究。本文大致分为三个部分,一部分是领域开放网络文本语料库构建的研究,提出了基于正则表达式的改进句子分割方法和基于网络爬虫和词频分析的领域词提取方法;领域开放网络文本语料库的构建能帮助后续工作执行,实现分类模型的训练和测试,并提供了大量的知识信息,为实际应用工作提供论据支撑。第二部分是领域开放网络文本层次分类方法研究,提出了基于卷积的层次文本分类模型HCNN。在神经网络的特征提取结构的构建方面,本文提出了共享-私有网络结构。在层次分类方面,本文设计的多层次分类结构以粗粒度分类结果约束细粒度分类以改善最终性能。神经网络使用的损失函数方面,加入了能强化不同类别样本之间的区分度损失项。在第三部分,即审计应用探索部分,基于上述的研究构建了领域开放网络文本语料库,并对领域文本执行多层次分类,然后结合主题提取技术,实现对四险一金领域文本的分析然后可据此指导审计工作。本文针对上述的方法与应用分别进行了实验,并对实验结果进行分析。通过不同训练集的比较,验证了平衡训练集在训练神经网络分类器时的优势。测试了层次文本分类HCNN方法,相比于LSTM模型大大缩短了训练所需时间,并实现了与LSTM接近的准确率;验证了训练集的充分程度和强化区分度的损失在训练过程中的效果。最后利用领域审计应用框架对领域文本语料集进行分析,论证了应用的可行性。
其他文献
物联网技术作为我国信息技术发展的第三次革命,对各行各业的发展都发挥了重要的推动作用。农业作为物联网技术应用的重要领域,在农业领域的不断应用不仅为农业经济的现代化发展做出了重要贡献,同时也为农村信息化建设以及农村社会进步与发展产生了积极影响。但是农业物联网在我国仍然属于新兴事物,在部分地区的初步推广工作也出现了诸多问题,这导致农业物联网技术的作用没有有效发挥,因此有必要对我国农业物联网技术的推广应用
水下信号处理技术是开发维护海洋必不可少的技术手段,波达方位估计作为水下信号处理的重要分支,一直都是热门研究课题。传统的DOA估计手段多是建立在窄带信号的基础上,而在实际工程中信号多为宽带信号,因此对于宽带信号高分辨DOA估计算法计算量大,低信噪比情况下性能退化等问题的研究极具现实意义。MUSIC算法作为高分辨DOA估计算法的重要方法之一,存在计算量大的问题。针对此问题,本文提出了一种改进的MUSI
随着教育理念以及互联网技术的不断发展,英语教学形式不断创新。其中微课作为互联网发展的产物,被广泛的应用于英语教学之中。当代小学生从小接触网络以及电子产品,对于微课这样的教学形式能够迅速接受。小学英语语法教学在整个小学英语学习中是较为单调和枯燥的一个版块,但语法教学的重要性也是新课程标准中尤为强调的。那么,将微课应用于小学英语语法教学能否帮助学生提高英语语法成绩和学习兴趣值得广大小学英语教师关注。基
随着互联网和人工智能时代的到来,国家各个领域对于高层次的人才需求持续的增长。在深化研究生选拔和培养的供给侧结构改革、促进研究生教育的高质量发展以及考研培训产业转型和升级的背景下,当前考研培训市场的格局也必将发生改变,很多企业也会面临着新的危机和挑战。X公司,成立于2005年,主营业务是考研培训项目。在教学质量和教学服务上不断探索和升级,赢得了客户的信任和良好的口碑,但是在山东省考研培训市场上,其营
目前,大型泵站主要采用故障检修与定期检修相结合的维修方式,实现对泵站的安全运行管理。许多泵站已经增设了状态监测系统,然而主要以状态监测为主,部分系统提供了状态评价和故障诊断软件功能,但实际应用效果远未达到预期效果。其主要原因包括:水泵机组的状态量成分复杂,状态特征提取难;影响水泵机组状态的因素多,难以建立精确的状态评价模型等。为提高大型泵站的运行管理水平,结合南水北调泵站群运行管理的需要,针对目前
近年来,机器翻译,语音识别和文字预测等应用成为自然语言处理领域研究中的热点和难点,循环神经网络(Recurrent Neural Network,RNN)网络在这些应用中总能获得很好的表现,尤其是长短时间序列(Long Short-Term Memory,LSTM)。LSTM在RNN单元中加入了门单元,使得其长时间记忆能力更强,适合解决复杂的学习问题,但也带来了高计算复杂度和海量存储的需求。随着现
随着移动互联网的蓬勃发展及Android手机市场占有率的日益提高,Android移动终端也成为人们不可或缺的隐私管家。人们在Android移动终端上存储了包括通话记录、联系人等传统隐私数据,也存储了图片、音视频以及文本等隐私文件。由于Android系统的开放性,用户存储的隐私数据及隐私文件的安全面临极大威胁。攻击软件只需通过申请权限便可以得到用户隐私数据和隐私文件的访问权,从而窃取用户的隐私。因此
在经济快速发展和经济全球化的背景下,让供应链企业成员协同发展已成为供应链管理的优化目标之一,然而由于企业间信息壁垒的存在,导致供应链中的成员不能及时、准确地掌握相关的有效信息。而区块链技术去中心化、信息难以篡改、共同维护公共账本等特点契合了目前供应链出现问题的解决方式,成为解决供应链现存问题的新方式。但区块链技术的高容量占用问题是区块链与供应链管理结合的主要挑战,因此设计并实现一个面向供应链管理的
终端直通通信(Device to Device,D2D)技术是一种允许一定距离范围内的用户通信设备进行直接通信的新型技术,它能够在一定程度上减轻基站的负荷,并且能够提升频谱的利用率以及系统吞吐量等性能。但同时,D2D通信的应用会给蜂窝网络的用户带来干扰,这样的干扰会影响到整体通信系统的性能。所以如何降低D2D通信系统中的干扰,优化系统的性能一直是研究的热点。鉴于此,本文致力于研究终端直通通信系统的
深度卷积神经网络通常包含数十亿的参数量,计算量和内存占用都十分庞大,严重阻碍了其在硬件资源以及功耗存在限制的轻量型移动端的应用与部署。目前主流的神经网络运算平台GPU由于其功耗、尺寸以及能量效率等问题,无法实现在移动设备端应用。现场可编程门阵列FPGA具有丰富的逻辑与运算资源,因其具备高并行度、高能效比、灵活可配等特性,十分适合作为在移动端搭载深度神经网络的实现平台。但是采用FPGA加速实现深度神