基于FE-DCLSTM的安全隐患短文本分类方法研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:lnld123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
安全生产关系人民利益、关乎社会平稳发展。同时,也是企业能否平稳发展的基础。随着信息化、智能化的不断加深,隐患自查、自检上报平台的应用,企业监管部门以及企业都存储了大量的企业隐患文本数据。如何充分利用这些数据甄别出不负责的企业,为政府监管部门在有限人力资源的情况下实现精确检查、精准执法提供依据,对企业提高自我防范意识、避免生产事故发生具有极为重要的意义。针对安全隐患文本内容较短、特征矩阵稀疏等特性且使用外部语料进行特征扩展时容易引入噪声数据的问题,采用了一种基于WTTM(Word-network Triangle Topic Model)主题模型的特征扩展方式,并在此基础上提出加入类别特征,即在原有的文本特征基础上增加特征、增强文本语义信息,从而达到提升分类效果的作用。针对主题模型扩展特征不能无差别扩展的问题,结合主题模型扩展特征与原特征的相关性、主题在原文中的重要性以及词性对特征的重要度影响,提出针对主题模型扩展特征的权重计算公式,融入了主题扩展特征与原特征的语义相关性,可以更好地表达主题模型扩展特征的重要性。针对类别特征不可随机选取特征扩展的问题,结合类别特征词对分类结果的影响以及当前特征词与原文本相关性两方面综合考虑,提出类别特征重要性计算公式,融入类别特征与文本内容的相关性,可以选出更为优质的类别特征作为文本内容的补充。针对特征选取问题,在CTC2(Connectionist Temporal Classification)特征选取模型的基础上,针对特征扩展框架,提出一种基于改进的一维卷积网络与LSTM(Long Short-Term Memory)相结合的特征选取模型DC-LSTM(Dilated Convolution and Convolutional Neural Networks and Long Short-Term Memory),去除一维卷积的池化层,加入膨胀卷积,以达到扩大卷积感受野的目的以及充分发挥后续LSTM的作用,增强了一维卷积的上下文提取能力,最终融合各通道特征,送入LSTM再次提取特征。综上所述,本文主要从文本分类这一角度出发,提出了一种基于特征扩展与选取相结合的方法FE-DCLSTM。以大赛数据集为基础设计了大量的对比实验,实验结果表明,此方法在针对本文隐患文本数据集分类时,可以使得分类准确率得到显著的提升。
其他文献
红外与可见光图像融合是将由不同传感器获得的来自同一场景的两张图像结合起来,生成一张包含两张源图像互补信息的图像。可见光传感器通过捕获反射光获得包含丰富背景信息的可见光图像,但是却很容易受到环境因素的影响。红外传感器能够克服这些因素的影响,它通过捕获来自目标的热辐射获得具有清晰轮廓但背景模糊的红外图像。因此,将红外图像中的热辐射目标信息与可见光图像的背景信息融合到一张图像,不仅更利于人眼的视觉感知,
学位
近年来,虽然我国对于证券市场的监管制度愈发完善,但是上市公司的财务欺诈行为并没有随着制度的完善而消失,各种财务欺诈案层出不穷。该行为不仅会造成报表使用者的利益损失,还会冲击整个市场的资本环境。在面对财务欺诈这一棘手的问题时,如何构建出准确高效的财务欺诈识别模型,成为了财务报表使用者以及市场监管者最关心的问题之一。现有研究表明,基于财务指标和财务文本能有效地识别出存在财务欺诈行为的样本。本文以上市公
学位
单一的传感器只能获得单模态的场景信息,存在一定的局限性,而随着技术的不断发展,传感器的种类越来越多,人们可以获得同一场景多个传感器拍摄的图像。图像融合技术对多传感器拍摄的同一场景图像进行多方位、多角度融合,以减少冗余信息并获得良好的视觉效果和丰富的细节。可见光图像包含了场景的背景信息以及纹理信息,但在某些特定情况下,如在弱光、雾等环境条件下,目标很难在可见光图像中观测到。红外图像则反映了目标与背景
学位
科技飞速发展的今天,计算机技术以迅猛的速度进入各行各业,物联网技术飞速发展,摄像机等监控设备的联网被广泛应用,但仅靠设备捕捉到的画面难以满足日益复杂的需求。当前,仍有许多城市出现雾霾的天气状况,此时摄像头拍摄到的画面总是朦胧不清,这给后续的许多任务,例如车牌识别、行人面部识别、自动驾驶路况判断等带来了不小的挑战。在这种情况下就需要使用图像处理技术对画面进行处理,去除图像上的雾层,挖掘出被雾霾掩藏的
学位
软件测试是软件开发中非常重要的一项任务,能帮助开发者全面、快速地找到软件漏洞,从而有效提升软件质量和用户体验。设计和选择合理的测试用例,可提升软件的测试效率,减少开发人员的工作量。随着软件功能的不断完善,其规模和复杂度不断增加,传统用例生成方法效率较低,很难满足目前软件测试的需求,故而,如何提高测试用例生成效率仍需进一步研究。基于此,本文针对路径覆盖测试用例自动生成效率问题展开探讨。针对回归测试中
学位
随着传感器技术的飞速发展,人们获得信息的通道越来越多。不同的传感器能够反映场景中不同方面的信息,可以帮助人们更加全面地了解物体的本质。虽然不同传感器图像之间存在着互补信息,但图像和图像之间不可避免的存在冗余信息。红外传感器捕捉场景中的热辐射信息,因此红外图像具有较高的对比度,且能够将显著目标与背景分离。可见光传感器捕捉场景中的光反射信息,因此可见光图像具有较丰富的纹理信息。红外和可见光图像融合旨在
学位
新媒体时代下,社交媒体的高度活跃,吸引了大批有着共同兴趣爱好的网民,“同好者”通过社交网络齐聚一堂,彼此联系,实现信息的交流与互动,这令每个人都不可避免地成为信息的传播者和接收者,且随时随地都能参与到媒介内容的生产过程中去。如此一来,网络中的信息量呈指数型不断增长,但在这急剧增长的信息中却夹杂着大量包含色情、暴力乃至反动等内容的敏感信息。人们的身心健康和财产安全极易遭受这些信息的威胁,不仅如此,带
学位
当今世界,国外在核心技术上对中国进行各种封锁,中国需要凭借自己的能力冲破阻碍,“十四五”规划中也提到科技创新的重要性。创新促进科技的进步,而学科竞赛是培养学生创新能力的重要途径,参加学科竞赛有利于激发学生的创新活力,优化学校的创新生态。现如今,人们的生产生活方式由线下逐步转为线上,人们逐渐习惯了在线上就能完成所要做的工作。因此,本文从学科竞赛中的组队入手,旨在打造一个帮助学生参与竞赛,帮助学校管理
学位
可搜索加密是一种支持用户在密文上进行关键字查找的密码学原语,它能够有效解决无法直接在基于传统加密方案加密的数据中进行查询的问题。在云端的密文数据集中,当用户由于自身缘故导致输入查询关键字有偏差时,仅支持精确查询的可搜索加密会导致搜索结果和用户预期相差较远,甚至没有搜索结果。而支持模糊关键字查询后,云服务器将根据查询关键字搜索与其尽可能相似的文件,从而有效避免上述问题。搜索精度和搜索效率是衡量可搜索
学位
法律文书是司法机关及律师等在解决案件时使用的文书,包含大量司法信息,如何高效地分析和利用这些信息具有重要研究意义。现有的法律文书智能化处理大多集中在法律实体识别和法律实体关系抽取上,对于事件抽取的研究非常少。民事判决书作为日常中最为常见的文书类型,具有一定的普适性,同时判决书作为判案的判决结果,将其作为数据来源可以获得案件细节的详细描述。本文从北大法宝上下载民事判决书作为原始语料,针对民事判决书进
学位