论文部分内容阅读
保密检查是维护国家信息安全的重要手段。随着保密检查的力度逐步加大,针对文件的涉密信息检查是检查工具当前的研究重点。由于计算机存储容量的不断增大,随之而来的是海量的文件数据信息,这极大的加长了文件涉密信息检查的时间,传统的模式匹配算法已很难满足针对海量文件的模式匹配速度要求,另一方面当前的文件涉密信息检查大多只针对文件中存在的文本信息,忽略了对文件中嵌套的图片进行检查,这些图片中依然会存在重要涉密信息,从而造成了目前文件涉密信息检查的不完整性,也就远远达不到保密检查高效性、准确性的要求。本文致力于研究面向保密检查的文本关键词检索技术,包括图像中文本提取技术的研究和多模式字符串匹配算法的研究。论文针对文本关键词检索的关键技术进行研究,主要工作如下:(1)设计了一种基于非下采样Contourlet变换的图像中文本提取方法。该方法分为3个步骤。首先,将待处理图像进行高斯金字塔分解,得到不同分辨率下的待处理图像。然后,通过非下采样Contourlet变换方法对待处理图像进行文本区域的定位,综合各分辨率下的待处理图像定位结果得出最终的文本区域。最后,将上一步骤定位到的文本区域进行全局阈值二值化提取处理后获得文字图像,并将其输入OCR系统进行文字识别,最终得到提取识别后的结果文本文件。(2)设计了一种基于跳跃表和双重散列技术的多模式字符串匹配算法。该算法分为3个步骤。首先,模式匹配算法可划分为两个阶段,预处理阶段和搜索匹配阶段。在预处理阶段建立字符跳跃表,该表用于模式匹配过程中搜索窗口的转换。然后,建立第一层级散列表和第二层级散列表,它们用于待匹配规则模式的搜索。最后,在搜索阶段基于跳跃表、第一层级散列表、第二层级散列表在待匹配文本中进行规则模式的扫描匹配寻找所有规则模式的命中位置。研究结果表明,提出的图像中文本提取方法使用ICDAR数据集与现有典型方法作比较具有较高的图像中文本提取率和正确率;提出的多模式字符串匹配算法使用路透社Reuters-21578新闻数据集与现有的经典算法做对比具有相对较高的时间性能和空间性能。因此,本文研究的文本关键词检索技术可用于保密检查。