论文部分内容阅读
当今社会,互联网成为了大多数人生活中必不可少的一部分。不少不法分子借助互联网的广泛影响,在网络中散布谣言、淫秽、恐怖、反动等敏感信息,不仅侵犯个人权益,甚至危害国家安全,引起社会动荡。如何在海量的互联网信息中快速发现这些敏感信息,成为信息安全在互联网时代的一个重要课题。本文对敏感信息发现开展研究,主要工作如下:①提出了一种论坛帖子链接的识别算法。通过对论坛站点的论坛帖子链接特点分析,发现论坛帖子链接文本描述在长度上有统计规律,并在构造上具有一定模式。论坛帖子链接参数大体可分为分显式和隐式两类,显式链接参数明确包含请求处理网页名、帖子编号、帖子页码信息,隐式链接参数则将上述三个信息包含在请求处理网页名中。基于链接文本描述长度的统计值,提出了识别论坛帖子链接构造模式,并提取请求处理网页名、帖子编号、帖子页码信息的算法。实验表明,该算法能够自适应并快速准确识别帖子链接和非帖子链接,为快速抽取帖子内容提供基础。②提出了一种基于帖子id自增长的论坛敏感信息扫描策略。针对没有识别出帖子链接模式的论坛,直接采用宽度优先策略进行敏感信息扫描。针对识别了帖子链接模式,但该模式帖子id不能自增长的论坛,采用宽度优先构建爬行队列,对符合帖子链接模式的网页进行敏感信息扫描。针对帖子id能够自增长的论坛,则采用帖子id递增的方式动态构建爬行链接进行敏感信息扫描。实验测试表明,同传统的宽度优先爬行策略相比,本策略提高了论坛帖子扫描速度。③提出了一种基于增量搜索的敏感信息监测调度策略。通过计算网页md5值,标识网页变化情况,对发生变化的网页进行增量扫描。根据扫描结果是否出现敏感信息,预测下次扫描时间,动态调整扫描频率,实现优化调度。对于需要重点扫描的网页,根据网页敏感度、网页变化频度和网页深度计算网页的扫描紧迫度,构建网页级扫描队列,进行高频扫描。为完整发现网页变化,并且尽量减少资源消耗,构建网站级扫描队列,进行低频扫描,将敏感信息变化的网页补充进网页级扫描队列。实验结果显示,该策略不仅能快速发现新增的、变化的敏感信息,而且由于减少了对敏感信息无变化的网页的扫描开销,极大地降低对网络和服务器资源的消耗。④设计和实现了一个敏感信息监测原型系统。原型系统按照展示层、业务层、数据层进行架构。通过对41个网站以及4个论坛进行了持续监测扫描。扫描结果表明该系统运行稳定,能够较快发现被监测的网站和论坛中的敏感信息。