基于BERT的商业领域敏感信息识别的方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:txj8u5yhb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的飞速发展,各行各业产生大量庞杂的数据,由于商业领域其本身的时效性、特殊性、敏感性等特点产生的数据量更是不容小觑。在产生大量数据的同时,由于隐私保护相关法律和意识的缺失以及不法分子非法窃取等问题,导致当前大环境下商业领域敏感信息问题频发。由于商业领域中信息错综复杂,难以人工进行敏感信息识别保护。而BERT模型可以结合文本的上下文信息,并且可以解决中文表达中一词多义的问题,不仅有效的节省了人工成本而且能够用时更短、效果更优的完成识别任务。因此基于BERT模型的商业领域敏感信息识别方法研究具有重要的研究价值与实践意义。首先,针对课题背景以及研究意义,命名实体识别技术可以从可能包含关键词的信息载体中识别提取特定实体类型,而由于中文的语言在间断、语法等特性上与英文有着很大的不同,因此深入了解了当下中文领域中命名实体识别技术发展趋势以及解决此类问题主流模型,同时探讨了传统方法的瓶颈与困难,并在此基础上提出了改进的方法和思路。其次,详细了解了法律层面定义的商业领域中常规出现的敏感信息,并且研究了敏感信息类别、表现形式等,详细讨论了敏感信息感知的必要性并且分析敏感信息对整体文本的影响因素。鉴于中文语法的特殊性,所以识别过程中会出现一词多义、语义提取困难以及非结构化文本不固定等问题。着眼于此类问题,本文从数据类型底层出发,经过数据采集与数据预处理流程,运用命名实体识别手段,构建了整体敏感信息识别框架。最后,在深入了解传统模型优缺点的基础上,引入了BERT预训练模型。有效解决传统词嵌入模型无法表示一字多义的问题。利用BiLSTM以及CRF与SPAN等解码模型弥补了BERT模型只能捕捉上下文特征的缺陷,可以对BERT输出结果进行修正,提高整体识别准确率,因此形成了BERT-BiLSTM+CRF模型、BERT-CRF与BERT-SPAN模型。并在此基础上将BERT-CRF与BERT-SPAN模型进行异构融合之后实现了BERT-CRF+BERT-SPAN模型。依照实验成果发现,本文设计的整体模型识别效果表现出色,证明本文提出的基于BERT模型的敏感信息识别模型具有重要意义。
其他文献
学习任务群和大单元教学是语文教学领域的新概念和新思想。在小学语文教学中,基于学习任务群理念开展大单元教学活动,有助于发展学生的核心素养。文章以部编版小学语文教材中高段的内容为例,指出教师要从审视教材、研判内容和整体设计三个方面出发,探索基于学习任务群的小学语文中高段大单元教学实践策略,旨在通过设计任务、创设情境等方式,引领学生关联不同的学习内容,掌握多元化的学习方法,实现全面发展。
期刊
奖励作为一种强烈的动机,在学习过程中起着重要的作用,并且能增强个体的认知控制能力。双语学习是许多人都关心的问题,如果奖赏奖励能够增强个体在语言转换中的认知控制能力,那么奖赏将在语言学习教育中发挥重要的作用。本研究将为这一论断提供实验证据和重要的理论补充。实验一将不同的奖励模式与线索语言转换范式相结合,对使用英文命名给予变化的高奖励反馈(1、3、5、7、9分,每类各20%),而对使用中文命名只会给固
学位
近年来,随着物联网技术的迅速发展,物联网在智能家居、智慧交通领等多个领域域得到了广泛的应用,智能化的生活方式给人们带来了极大的便利。然而,物联网设备通过传感器具有广泛收集个人数据的能力,面临着隐私安全问题的挑战。为了缓解用户对隐私权的担忧,厂商主要通过隐私政策的方式来告知用户其如何处理数据。在这种前提下,发现目前隐私政策仍然存在着诸多问题,一是物联网隐私政策嵌入到应用程序隐私政策中形成了混合隐私政
学位
视觉工作记忆与注意有着密不可分的关系,既可以通过外部注意选择相关信息进行编码,也可以在刺激消失一段时间后,通过内部注意来选择相关的信息进行表征。在视觉工作记忆的研究中,研究内部注意对记忆表征的认知加工影响的常用范式是回溯线索范式。在该范式中,未线索化的项目(无效线索条件)记忆成绩会被显著降低,这一现象称为回溯线索损耗(Retro-Cue Cost,RCC)。以往的研究发现在无效线索条件中,非线索化
学位
大量研究探讨与他人的眼神接触对个体记忆成绩的影响,但目前的研究结果并不一致。一些研究报告,眼神接触会产生积极作用,会促进记忆成绩,而另一些研究报告,眼神接触会产生阻碍作用,会降低记忆成绩。我们分析认为造成不一致的关键因素可能是以往研究设置的任务难度不同,但目前尚无研究探讨任务难度是否会调节眼神接触对记忆的影响。因此,本研究采用单词记忆任务,通过设置两种任务难度,使用行为测量和近红外技术,考察任务难
学位
视觉工作记忆(Visual Working Memory,VWM)在人们的生活和学习中都扮演着重要的角色,是我们最重要的认知加工系统之一。研究视觉工作记忆所常用的一个重要脑电成分指标是对侧延迟成分(Contralateral Delay Activity,CDA),该成分的幅度被发现会随着被试记忆项目数量的增加而逐渐增加。然而CDA具体所反映的是工作记忆存储过程中的哪种认知功能还仍存在争议。其中,
学位
糖尿病是目前最危险的慢性疾病之一。随着糖尿病患者患病时间的延长,它会损害身体的其他器官,导致很多严重的并发疾病。一般情形下,并发症会对病人造成巨大的身体问题,甚至危害到病人的生命安全。为了对糖尿病患者的并发症提早发现提早预防并且以尽可能高的准确性诊断糖尿病并发症,本研究提出了一种基于特征选择和加权融合分类的糖尿病并发症预测方法。首先,为了减少数据集维度,本文提出了灵活互信息与递归特征消除混合的特征
学位
先前的双语研究表明,当信息用外语(L2)而不是用母语(L1)呈现时,双语者往往会进行更加理性地决策,并且更善于分析,产生所谓的“外语效应”。已有大部分的研究考察了情绪卷入或认知负荷各自对决策的影响,而忽略了外语中认知负荷和情绪卷入的交互作用对决策的影响,并且这种影响对理智决策过程的干扰可能会更明显。因此,本研究采用跨任务设计范式,词汇-语义任务通过操控任务难度来设置高认知负荷条件:L1(汉语)中使
学位
测井用集流器作为石油生产测井过程中必不可少的仪器核心部件,其高集流度是保证低产液油井产液剖面测量参数准确检测的前提和基础。在油管输送产液剖面测试工艺下,常规集流器因受井下条件、重力等影响存在漏失严重、易刮破等问题,使得测井成功率大大降低。因此,本文就如何提高集流器的集流性能和井下故障稳定性进行分析,基于多物理场有限元仿真技术和自动化机器学习技术,开展以橡胶弹性件为核心部件的高集流度、高可靠管柱挤压
学位
在车辆到达减速带前实现减速带特征估计,可以使车辆的可控悬架系统根据减速带特征做出相应调整,提升车辆通过减速带时的乘坐舒适性。论文聚焦于基于毫米波雷达的减速带特征估计方法,主要工作概括为:首先,设计一种新颖的基于毫米波雷达的减速带特征感知系统。该系统利用汽车毫米波雷达发射的调频连续波(Frequency Modulated Continuous Wave,FMCW)信号,实现减速带特征的非接触式感知
学位