中英混合多模式匹配算法的改进及GPU并行化研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:eddiechen3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、通信与网络的飞速发展,信息泄漏等问题受到了越来越多的关注。基于内容的网络信息审计,是保证信息不被泄漏,防止非法信息传播的有效手段,其关键技术为多模式文本匹配。在我国现有的网络环境下,多模式文本匹配将会面临中英文混合处理这一特殊难题。传统的多模式匹配在此环境下,则会产生空间膨胀、误匹配或漏匹配等问题。且随着网络数据信息规模的日益增加,对内容审计的实时性有了更高的要求。论文的主要工作包括:(1)在Trie结构的基础上,提出了一种基于节点添加的中英混合多模式匹配算法—NA-Trie。该算法通过添加少量的节点,以避免中文首字节错位匹配等问题。算法能够正确处理模式串同时含有中英文字符这一情况,有效避免错误匹配的发生;并且简化匹配过程,消去了多余的分支语句,使得算法更易于并行加速。给出一种基于记忆化存储状态结果的优化算法,通过预处理所有状态节点,记忆化地保存各状态所能获得的匹配数。该算法降低了匹配算法的时间常数,减少了时间开销,在一定程度上提高了匹配效率。(2)分多个小文本、单个大文本两种情况,利用GPU对多模式匹配进行并行优化。并针对单个大文本情形,给出一种基于文本拆分的并行文本匹配算法。该算法通过预处理以去除中文文本的数据相关性,再进行文本拆分和并行匹配,以大幅提升算法匹配效率。设计并实现了一种基于GPU的通用并行文本匹配原型系统,该原型系统模块化了并行匹配过程,提供了统一的函数接口。研究人员只需将自己的核心匹配代码嵌入到接口函数中,即可完成多模式匹配算法的并行优化。该原型系统简化了编码过程,提高了开发效率。
其他文献
在信息技术、市场竞争和需求的共同作用下,移动通信技术更是突飞猛进,数字技术在语音质量、通信安全、频谱效率、业务功能丰富性等诸多方面比模拟技术有明显的优势,对讲机作
超网络是在细胞中生物分子网络的启发下形成的一种用于学习和记忆的概率图论模型。超网络是一种由大量超边组成的特殊超图。与一般意义上的图不同,超图的超边可以连接两个以上
随着移动设备、无线通信和GPS的大量应用,催生了一类基于位置的服务(Location based service)。位置服务提供给查询者关于移动对象随时间变化的位置信息,数据库需要处理不断
克隆选择算法是根据生物免疫系统中的克隆选择学说而提出的一种仿生智能计算方法,该算法依据亲和度,对抗体进行不同程度的繁殖和变异操作,具备较强的自适应能力、学习能力和保持
随着计算机技术和信息技术的发展,生物特征识别技术得到了广泛的应用。生物特征识别技术中有人脸识别技术、指纹识别技术和虹膜识别技术等。相对于人脸识别及虹膜识别,指纹识
人脸特征定位是面部信息感知的关键,它的研究在人机交互和可视化操作等方面有着重要的作用。人脸特征定位就是利用计算机在输入的待搜索图像中通过特定的算法自动搜索出人的面
随着社交网络的迅速扩张,旨在为社交网络用户提供信息推荐的社会化推荐系统逐渐得到研究和发展。在实际应用中,社交网络用户对信息的选择主要是根据其内容。但是目前社会化推
红花集控中心计算机监控系统的主要目的是实现红花、大埔两个电站的远程统一调控,监视和控制两个电站(并预留接口拓展到多个)的主要机电设备。   系统的主要目标是:实现红花
在医学或生物学研究中,对生物粒子(如囊泡、病毒粒子、DNA)进行检测与运动跟踪是研究亚细胞级粒子生理机理的主要方式,这对科学研究和药物开发具有重要意义。因此,生物粒子检测与
目前,多核处理器已成为通用微处理器设计和实现的主流。多核处理器因多道程序在多核内同时执行导致其功耗过高,这些功耗以热能的形式向外散发,使处理器的温度不断上升。当处