论文部分内容阅读
为实现根据HTTP协议数据流对用户的行为进行分析,需要快速区分出用户访问资源的URL。为此文章提出一种结合规则过滤和机器学习算法的方法,用于快速识别用户访问的URL。首先将解析后的数据包根据URL后缀过滤掉资源加载类的数据包,然后根据浏览器UserAgent的特有字段和在浏览器上访问网页的特性识别出浏览器UserAgent, 最后通过基于AdaBoost和Bayse算法训练好的分类器识别出用户访问URL。实验结果表明,本文方法能够在局域网数据流中高效、准确的识别出用户访问的URL。