论文部分内容阅读
Web日志分析预处理阶段的一个重要步骤是事务分割,把一系列的操作合并成完整的事务。文章提出了一种基于统计模型的事务分割算法。统计模型上采用了网站链接的边界访问概率和事务内的链接转移概率矩阵。算法将包含了若干个事务的日志片断作为一个整体,采用最大似然的准则来获得整体最优划分结果。在一个内网办公系统日志采集的数据集上,文章采用True Positive Rate和Precision两个统计量来比较不同事务划分算法的性能,结果证明了文章提出的算法的有效性。