基于全文检索的敏感信息检测系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:tianshi6868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Github已经成为当下最受欢迎的开源代码托管平台,越来越多的开发人员和企业将项目上传到Github平台上。开发人员由于疏忽和安全意识不足,将含有敏感信息的代码库上传到Github的公共区域,导致敏感信息泄露,带来了许多安全危害,因此,能够有效识别源码中的敏感信息的技术手段显得尤为重要。针对这种现状,本文基于Elasticsearch全文检索技术设计并实现了一个敏感信息检测系统,在保证搜索精确度和查询性能的基础上,能够根据关键词从海量源码文件中搜索出含有敏感信息的文档。本文深入研究了搜索引擎技术中常用的中文分词算法和排序算法。其中,中文分词算法包括:基于字符串匹配、基于词频统计以及基于语义分析等3种中文分词算法,使用基于字符串匹配算法实现的IK分词器对源码文本进行分词。排序算法包括IF-TDF算法、PageRank算法以及BM25算法,分析各个排序算法的原理和优缺点,改进BM25算法应用于搜索结果排序。考虑到数据量比较大,且数据还会持续增长,本文使用HDFS分布式文件系统来存储源码数据,优点是HDFS集群易扩展,可以通过增加节点的方式扩充存储容量,且数据不易丢失。缺点是HDFS不适合存储海量小文件,本文通过将一个项目中的所有小文件合并为一个大文件的方式解决了该问题。部署Elasticsearch集群作为搜索引擎提供全文检索功能,将HDFS集群中的源码文件读取并上传至Elasticsearch集群中,期间经过一系列优化方案提升了 Elasticsearch集群的索引性能和查询性能。基于对系统的需求分析、概要设计以及详细设计等,使用Spring Boot、Thmeleaf、MyBatis Plus、Layui等技术实现了敏感信息检测系统,最后对系统进行测试,测试结果符合预期。
其他文献
科学合理地制定广播电视工程的管理策略,能够确保广播电视工程的施工安全和顺利进行,从而进一步推进广播电视行业的发展.广播电视工程涉及到的工作内容比较复杂,不可避免地会出现一些问题.因此,应该通过规范施工管理的流程,建立高水准的专业管理队伍,组建高素质的施工队伍,选择优质的施工单位以及做好施工前的相关准备工作,来有效保障广播电视工程的施工安全,保证广播电视工程的施工工作能够顺利开展.
随着广播领域信息科技的飞速发展,新技术不断涌现,使人们能够获得更好的音像资料,而随着我国数字电视技术的进一步发展,传统的监控手段也需要创新.从地面数字电视的技术特点出发,分析相关监测技术的结构,探讨射频监测等主要检测手段和方法,编码流检测控制和音频视频监控.本文基于无线通信网络中数字电视的使用,选择一个具体的实例,具体介绍电视数字技术在国有企业专用线路中的应用情况和发展前景.
判断一个搜索引擎的成功与否,用户对搜索结果的满意度起了关键作用。由于通用搜索引擎搜索到的内容数量过多,且相关率低、重复率高、内容复杂,用户如果想要在通用搜索引擎中查询某一领域或专业的相关网页,检索过程还需花费大量精力去排除无用信息。垂直搜索引擎的出现正是为了解决这一问题。传统搜索引擎在博客网页信息数据的搜索上效率不高,不能满足想搜索特定博客用户的需求。本文重点研究了搜索引擎中网页相关性排序算法的改
自然语言生成(Natural Language Generation,NLG)是自然语言处理领域的一个重要分支,它将输入资料转换成自然语言表述。实现丰富流畅的自然语言生成是人工智能走向成熟的标志之一。本文关注的自动评论生成任务是NLG技术的应用领域之一。然而,目前基于生成模型的自动评论生成的工作中,生成的评论通常只包含与文章相关的信息,而极少包含人在进行真实评论时所具有的由文章内容联想出的信息——
现阶段,信息科技实现了迅猛的发展,计算机已经成为人们生产生活中十分重要的工具,发挥了巨大的作用,且越来越呈现出智能化、自动化的发展趋势,为人们工作效率的提升做出了极大的贡献.需要关注的是,在计算机的运行过程中,因为各类因素的影响使其软件硬件等等往往出现不同程度的故障或者问题,在这样的情况下,就需要切实做好故障的诊断和维护工作,这样才能确保计算机维持在高质量的运行状态,进而呈现出自身的效能.结合这样的情况,本文重点分析计算机软件硬件故障诊断以及维护策略等相关内容,希望本文的分析能够为计算机安全稳定的运行提供
随着信息技术以及多媒体技术的蓬勃发展,数字视频的数量飞速增长,急需新的技术对其进行分析与处理。在视频的分析过程中,首先需要对视频场景进行分割以提取元数据。另外,视频的审核也是短板之一,需要一种方法对视频中的暴力内容进行检测。本文提出了一种使用深度神经网络-隐马尔科夫模型、滑动窗口以及多模态的视频场景分割算法。该算法首先提取镜头的视觉、音频和字幕特征;之后利用深度神经网络-隐马尔科夫模型来推断镜头所
信息技术不断发展,各行各业都广泛应用信息技术,5G技术的出现,促进了我国现代化建设的发展,同时广播电视行业也结合了信息技术得到了快速的发展,因为我国经济水平的提高,人民的生活水平也随之提高,所以精神文化对人们也越来越重要,这也促进了广播电视的发展,传统的广播电视没办法满足人们的需求.在广播电视中应用5G技术,可以促进广播电视技术的升级转型,更好地满足人们的需求,所以要加强5G技术在广播电视的应用.
随着互联网信息技术的不断发展,有线电视网络作为传统的广播电视与信息技术的结合,对新媒体的发展具有重要意义,推动了媒体传播的多元化.文化融合平台是指在传统的媒体平台中加入文化符号,使人们在使用媒体平台时,可以体会到其中蕴藏的文化内核.本文将从有线电视网络和文化融合媒体出发,重点分析文化融合媒体平台的特点及工作模式,提出新的建设思路以及实际应用.
在超高清技术不断发展的今天,人们对视频质量、播放效果的要求越来越高,为用户提供高清晰度、高对比度、高画质的视频是广电媒体未来发展的必然趋势,本文将从超高清技术的概念、超高清技术的发展历程及超高清技术在电视传输与转播中的重要性等几方面进行阐述,以期为电视传输与转播领域提供一定的理论参考,促进电视转播领域的发展与升级,为用户提供更好的观看体验.
借科学技术的日渐成熟,使人们获取新闻的途径更加有趣味,群众从被动变为主动,逐渐丰富了业余生活的趣味性,随着各级媒体之间的相互交融,融合新闻的出现推动了新闻传播的发展,新闻信息在科技移动设备之间进行传播更加方便,展现出融合新闻传播的强大生命力,使新闻信息在进行传播时能更加方便快捷,体现出新闻发展的真正内涵.本文主要就媒介融合背景下融合新闻的概念、传播效应、有效的提升策略进行分析.