面向保密检查的文本关键词检索技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:suxinlan2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
保密检查是维护国家信息安全的重要手段。随着保密检查的力度逐步加大,针对文件的涉密信息检查是检查工具当前的研究重点。由于计算机存储容量的不断增大,随之而来的是海量的文件数据信息,这极大的加长了文件涉密信息检查的时间,传统的模式匹配算法已很难满足针对海量文件的模式匹配速度要求,另一方面当前的文件涉密信息检查大多只针对文件中存在的文本信息,忽略了对文件中嵌套的图片进行检查,这些图片中依然会存在重要涉密信息,从而造成了目前文件涉密信息检查的不完整性,也就远远达不到保密检查高效性、准确性的要求。本文致力于研究面向保密检查的文本关键词检索技术,包括图像中文本提取技术的研究和多模式字符串匹配算法的研究。论文针对文本关键词检索的关键技术进行研究,主要工作如下:(1)设计了一种基于非下采样Contourlet变换的图像中文本提取方法。该方法分为3个步骤。首先,将待处理图像进行高斯金字塔分解,得到不同分辨率下的待处理图像。然后,通过非下采样Contourlet变换方法对待处理图像进行文本区域的定位,综合各分辨率下的待处理图像定位结果得出最终的文本区域。最后,将上一步骤定位到的文本区域进行全局阈值二值化提取处理后获得文字图像,并将其输入OCR系统进行文字识别,最终得到提取识别后的结果文本文件。(2)设计了一种基于跳跃表和双重散列技术的多模式字符串匹配算法。该算法分为3个步骤。首先,模式匹配算法可划分为两个阶段,预处理阶段和搜索匹配阶段。在预处理阶段建立字符跳跃表,该表用于模式匹配过程中搜索窗口的转换。然后,建立第一层级散列表和第二层级散列表,它们用于待匹配规则模式的搜索。最后,在搜索阶段基于跳跃表、第一层级散列表、第二层级散列表在待匹配文本中进行规则模式的扫描匹配寻找所有规则模式的命中位置。研究结果表明,提出的图像中文本提取方法使用ICDAR数据集与现有典型方法作比较具有较高的图像中文本提取率和正确率;提出的多模式字符串匹配算法使用路透社Reuters-21578新闻数据集与现有的经典算法做对比具有相对较高的时间性能和空间性能。因此,本文研究的文本关键词检索技术可用于保密检查。
其他文献
将SO2排放量作为一项非期望产出纳入火电行业生产率测算框架,采用Malmquist-Luenberger生产率指数对中国30个省份火电行业生产率进行测度分解。结果发现"波特假说"在中国火电
对组合电器进行运维管理是一项非常危险的工作,因此在进行管理时,一定要对组合电器的危险点进行全面的分析,因此本文从组合电器在运维管理中危险点分析与预控的角度展开了研
<正>在当前人们价值取向日趋多元、学生教育问题日趋复杂的情况下,重提中华传统道德精神,重拾中华传统道德文化,重建中华传统道德观念,加强中华传统美德教育,是丰富小学德育
技术人员在施工中应采用正确的施工方式,确保施工质量。重点论述公路桥梁薄壁高墩常见施工方法、公路桥梁薄壁空心高墩施工工序,薄壁空心高墩施工技术质量控制以及墩身施工线
本报讯由国家测绘局测绘标准化研究所研究制定的《基础地理信息要素分类与代码》等6项地理信息国家和行业标准近日在西安通过国家测绘局组织的专家评审。$$  这6项标准是:国
报纸
近年来,随着医疗技术的不断进步,会计师这一职位在医院的管理体系中占据着越来越重要的地位。本文将先阐述总会计师在医院管理中的主要职能和意义,再分析医院管理中总会计师
文章介绍了自整定PID在塑料包装机同步控制系统中的应用。针对塑料包装机生产线频繁启停废品率高的特点,提出了基于自整定PID算法并结合西门子S7_300 PLC,实现了多电机同步控
基于模块化多电平换流器技术,以三端柔性直流输电系统为例,提出一种新的将VSC-MTDC(voltage source converter multi-terminal HVDC)停运换流站并入运行系统的操作流程。分析
目的探讨住院患者压疮预见性管理的实践效果。方法重视发挥临床护士的力量,将压疮质量控制主权前移到临床护士:培训准入压疮专责护士,由造口及慢性伤口小组、压疮专责组长、
随着我国住房制度改革,逐步深入推进住宅商品化,房地产业得到了高速发展,但与此同时也引发了房价过高、开发不均衡、房地产市场结构不合理等问题。为了解决这些问题,国家出台