论文部分内容阅读
企业员工访问网站的记录在企业服务器中形成了大规模日志数据,从这些海量数据中发掘出有意义的信息是管理企业员工重要的环节,并成为大数据时代关注的重点。完成数据挖掘的核心工作之一就是对原始数据的预处理,它影响到数据分析结果的准确度。但由于web日志是Apache、Nginx和IIS等web服务器运行时产生的系统日志,web日志格式根据使用web服务器的不同而不同。所以,传统的日志数据清洗方式难以应对目前如此复杂的日志格式。由于专家系统其技术特点能应对复杂的日志格式,所以通过结合专家系统,推理出对应的web日志格式,从而自动进行日志数据清洗,可以使得当下复杂海量web日志数据预处理更加高效,智能。首先,介绍了专家系统;其次,介绍了web日志数据一般的数据预处理流程;最后,结合专家系统对海量复杂的web日志数据进行数据预处理,并通过实验验证了该方法的可行性。