论文部分内容阅读
摘要:随着学校信息化建设水平的不断提升,校园网内大量的数据信息不停地产生并囤积在服务器中。如何从这些数据里提取出有用的知识,已经成为计算机技术研究的热门课题。
关键词:校园网日志 研究 计算机
中图分类号:TP11.5 文献标识码:A 文章编号:1674-098X(2013)02(a)-0025-01
1 校园网日志挖掘平臺研究目的及意义
目前大部分学校的日志信息仅储存后用作突发事件取证留档,没有对其进行进一步的分析研究,信息管理人员认为此类数据信息一旦超过有效期(如3个月)就没有任何意义,可以进行删除用来回收存储空间。其实海量历史数据中就包括了校园网络使用日志,日志内容涉及用户使用网络的各个方面,包含时间、人员、目的、方法等,为数据挖掘工作提供了坚实的基础。通过校园网日志挖掘平台能够回答管理者最关心的问题:不同的用户分别在浏览什么网站,关心什么问题;校园网各个页面之间访问关联关系、频率、流量等。通过挖掘研究,能够得到用户的使用频率、使用目的、使用方法等,对网络调整及规划具有一定的辅助决策作用。校园网日志较普通网络日志有较为明显优势:在有设备支持的情况下,可以根据用户使用IP查询到用户基本对应关系(如学/工号),大大提高了在数据挖掘算法在用户识别环节的分析能力。以上海大学校园网为例,系统通过自行开发的IP地址管理程序以及网络出口审计程序,能够基本准确的匹配到使用用户信息,并且可以再借由上海大学自有的信息管理系统以及各类系统接口,通过以学/工号为主键的信息反馈到学校其他部门进行专项研究,由平台提供统一数据接口,直接提供给学校其他有类似需求的部门进行个性化在线分析,为学校各类决策支持提供数据依托,实现横向数据挖掘,这也是本研究未来的发展方向。
2 校园网日志挖掘平台研究初探
2.1 数据采集及预处理
校园网日志分析平台的实验数据来源主要来自于校内出口计费系统上学生上网行为日志,以及上海大学子新开发的IP申请系统中IP所对应的个人信息。由于系统设计或多系统兼容性问题,存在采集数据有噪声、不完整和不一致的情况,必须进行数据清洗,提高挖掘过程的精度和性能。(1)缺失值。经过对几个数据来源系统的数据进行分析,得出结论:在实际运行过程中数值缺失的情况相对较少,因为上海大学用户上网全部采用实名认证的登录方式,只有非常陈旧的数据无法在IP系统中关联,并且主要集中在多系统之间对应数据不完整的情况下,该文研究中将直接舍弃这些存在数据缺失的条目,因为根据大致统计可以看出,缺失条目与附近的数据差异并不大,舍弃这些条目对后期分析不会造成太大的影响。(2)噪声数据。该文采集数据中的噪声主要来自于学校内用户访问外网或进行某些网上操作时必须要经过的某些特殊路径,一种情况是在某些特殊时期对固定网站的频繁访问,如选课期间以及考试期间,大量频繁访问固定网站会对该时期用户真实访问兴趣点造成影响,另一种情况则是由于用户在按入终端上安装的某些软件会自动与服务器连接通信,包括自动下载等功能,也会造成大量频繁访问,因此需要针对以上两种特殊现象进行去噪处理。本研究中的出具解决方法是将此类网站日志暂时屏蔽,不纳入到分析样本中,以此来消除对最终数据挖掘结果的影响。
2.2 校园网日志统计与分析
本研究拟采用ASP.NET环境开发日志统计分析软件,按照日、周、月、学期对校园日志数据进行统计和监控,并生成相应图表。日志属于来自于学校出口计费系统,主要有以下一个关键字段作为统计列:(1)tarip(目标地址)记录用户访问目标IP地址。(2)protocol(协议类型)筛选http或http-download。本研究假射其余的默认为非网页访问,不纳入统计分析范围内。(3)rawdate(记录时间)记录了日志时间。(4)snapshot(地址快照)记录了用户所访问网络资源的url,格式如下:host/url/subject/bodysize。将其中的url清理后获取访问网页有效地址。在统计分析工作前,将编写程序将tarip中的信息通过学校自行开发的IP地址管理系统转换为访问用户的实际学/工号,用来进行分类统计分析操作。
2.3 校园网关联规则分析
本研究拟采用开源的Apriori算法进行关联规则分析,找出校园网用户在各网站之间的访问规则。研究中的Apriori算法前期准备工作如:(1)用户识别:可以借用在统计分析中已经转换好的访问数据直按导入,保证了用户识别的准确性,最大限度的降低了识别错误率。(2)会话识别:本研究暂时采用公认度比较高的时间区分法,取26 min为阂值,在此时间范围内用户对同一网站的多次访问理解为对该网站的一次会话操作。(3)频繁项集:根据笔者多次的实际操作,暂定取支持度为0.02。笔者认为支持度偏低,但是提高后有效网站明显减少,推断可能和测试数据量有关,等待进一步完善后将所有数据导入后再做调整。同时在有效网站中,依然存在如360.cn,qq.com等网站,笔者推断这些依然属于前面提到的噪声数据,可能对关联规则产生影响,必须采取有效措施改善。(4)关联规则:根据笔者多次的实际操作,暂定取置信度为0.5。最终分析结果中出现的关联规则中有前面提到的360、QQ所属的网站,并且规则意义不大。因此在后期完善国政中必定将在这一方面进行大量调整操作。
针对校园网内部网站的访问规则,笔者就此二次过滤了原始数据,并以相同的方式进行关联规则分析,也出现了如学校登录界面频繁访问等现象,需要对此进行调整。校园网站导航优化基于学校内所有站点内容,通过基于关联规则的数据挖掘技术能够了解用户在网站之内以及网站之间的访问顺序及关系,将导航工作延伸到单个站点之外,明确分析出用户在各网站兴趣点之间的关联,在优化网站内页面之间内容分布的同时,适当加入用户可能感兴趣,但在其他网站上的内容的链接,从源头上提高用户访问该网站的可能性,就能更好地引导用户进入感兴趣的页面,也能提高网站的访问量。
3 结语
学校大量存储的数据通过数据挖掘技术能够分析用户上网行为与趋势,了解用户在网络中的浏览内容,为网络管理提供深层次的决策支持。因此,需要一个分析平台能够对校园网日志进行数据挖掘,将数据挖掘技术应用于校园网,以发现校园网用户的浏览模式,分析站点的使用情况并得到相关数据关联规则,为网络管理提供有力的决策支持保障,也为将来在多平台多数据库的联动挖掘做好准备。
参考文献
[1]孔德剑.关联规则在大学生就业信息库中的应用研究[J].中国科技信息,2009(13).
[2]赵燕,曲守宁,赵玲,等.基于数据挖掘的课程相关性分析系统的应用研究[J].山东科学,2009(1).
[3]白连红,徐澍.两种基于关联规则的挖掘算法在电子商务中的改进[J].科技信息,2009(24).
[4]吕英华,马静.数据仓库技术在医院信息系统中的应用[J].医疗卫生装备,2009(4).
[5]张劲松.高等函授教育学生信息管理系统的设计与实现[J].西安航空技术高等专科学校学报,2007(3).
关键词:校园网日志 研究 计算机
中图分类号:TP11.5 文献标识码:A 文章编号:1674-098X(2013)02(a)-0025-01
1 校园网日志挖掘平臺研究目的及意义
目前大部分学校的日志信息仅储存后用作突发事件取证留档,没有对其进行进一步的分析研究,信息管理人员认为此类数据信息一旦超过有效期(如3个月)就没有任何意义,可以进行删除用来回收存储空间。其实海量历史数据中就包括了校园网络使用日志,日志内容涉及用户使用网络的各个方面,包含时间、人员、目的、方法等,为数据挖掘工作提供了坚实的基础。通过校园网日志挖掘平台能够回答管理者最关心的问题:不同的用户分别在浏览什么网站,关心什么问题;校园网各个页面之间访问关联关系、频率、流量等。通过挖掘研究,能够得到用户的使用频率、使用目的、使用方法等,对网络调整及规划具有一定的辅助决策作用。校园网日志较普通网络日志有较为明显优势:在有设备支持的情况下,可以根据用户使用IP查询到用户基本对应关系(如学/工号),大大提高了在数据挖掘算法在用户识别环节的分析能力。以上海大学校园网为例,系统通过自行开发的IP地址管理程序以及网络出口审计程序,能够基本准确的匹配到使用用户信息,并且可以再借由上海大学自有的信息管理系统以及各类系统接口,通过以学/工号为主键的信息反馈到学校其他部门进行专项研究,由平台提供统一数据接口,直接提供给学校其他有类似需求的部门进行个性化在线分析,为学校各类决策支持提供数据依托,实现横向数据挖掘,这也是本研究未来的发展方向。
2 校园网日志挖掘平台研究初探
2.1 数据采集及预处理
校园网日志分析平台的实验数据来源主要来自于校内出口计费系统上学生上网行为日志,以及上海大学子新开发的IP申请系统中IP所对应的个人信息。由于系统设计或多系统兼容性问题,存在采集数据有噪声、不完整和不一致的情况,必须进行数据清洗,提高挖掘过程的精度和性能。(1)缺失值。经过对几个数据来源系统的数据进行分析,得出结论:在实际运行过程中数值缺失的情况相对较少,因为上海大学用户上网全部采用实名认证的登录方式,只有非常陈旧的数据无法在IP系统中关联,并且主要集中在多系统之间对应数据不完整的情况下,该文研究中将直接舍弃这些存在数据缺失的条目,因为根据大致统计可以看出,缺失条目与附近的数据差异并不大,舍弃这些条目对后期分析不会造成太大的影响。(2)噪声数据。该文采集数据中的噪声主要来自于学校内用户访问外网或进行某些网上操作时必须要经过的某些特殊路径,一种情况是在某些特殊时期对固定网站的频繁访问,如选课期间以及考试期间,大量频繁访问固定网站会对该时期用户真实访问兴趣点造成影响,另一种情况则是由于用户在按入终端上安装的某些软件会自动与服务器连接通信,包括自动下载等功能,也会造成大量频繁访问,因此需要针对以上两种特殊现象进行去噪处理。本研究中的出具解决方法是将此类网站日志暂时屏蔽,不纳入到分析样本中,以此来消除对最终数据挖掘结果的影响。
2.2 校园网日志统计与分析
本研究拟采用ASP.NET环境开发日志统计分析软件,按照日、周、月、学期对校园日志数据进行统计和监控,并生成相应图表。日志属于来自于学校出口计费系统,主要有以下一个关键字段作为统计列:(1)tarip(目标地址)记录用户访问目标IP地址。(2)protocol(协议类型)筛选http或http-download。本研究假射其余的默认为非网页访问,不纳入统计分析范围内。(3)rawdate(记录时间)记录了日志时间。(4)snapshot(地址快照)记录了用户所访问网络资源的url,格式如下:host/url/subject/bodysize。将其中的url清理后获取访问网页有效地址。在统计分析工作前,将编写程序将tarip中的信息通过学校自行开发的IP地址管理系统转换为访问用户的实际学/工号,用来进行分类统计分析操作。
2.3 校园网关联规则分析
本研究拟采用开源的Apriori算法进行关联规则分析,找出校园网用户在各网站之间的访问规则。研究中的Apriori算法前期准备工作如:(1)用户识别:可以借用在统计分析中已经转换好的访问数据直按导入,保证了用户识别的准确性,最大限度的降低了识别错误率。(2)会话识别:本研究暂时采用公认度比较高的时间区分法,取26 min为阂值,在此时间范围内用户对同一网站的多次访问理解为对该网站的一次会话操作。(3)频繁项集:根据笔者多次的实际操作,暂定取支持度为0.02。笔者认为支持度偏低,但是提高后有效网站明显减少,推断可能和测试数据量有关,等待进一步完善后将所有数据导入后再做调整。同时在有效网站中,依然存在如360.cn,qq.com等网站,笔者推断这些依然属于前面提到的噪声数据,可能对关联规则产生影响,必须采取有效措施改善。(4)关联规则:根据笔者多次的实际操作,暂定取置信度为0.5。最终分析结果中出现的关联规则中有前面提到的360、QQ所属的网站,并且规则意义不大。因此在后期完善国政中必定将在这一方面进行大量调整操作。
针对校园网内部网站的访问规则,笔者就此二次过滤了原始数据,并以相同的方式进行关联规则分析,也出现了如学校登录界面频繁访问等现象,需要对此进行调整。校园网站导航优化基于学校内所有站点内容,通过基于关联规则的数据挖掘技术能够了解用户在网站之内以及网站之间的访问顺序及关系,将导航工作延伸到单个站点之外,明确分析出用户在各网站兴趣点之间的关联,在优化网站内页面之间内容分布的同时,适当加入用户可能感兴趣,但在其他网站上的内容的链接,从源头上提高用户访问该网站的可能性,就能更好地引导用户进入感兴趣的页面,也能提高网站的访问量。
3 结语
学校大量存储的数据通过数据挖掘技术能够分析用户上网行为与趋势,了解用户在网络中的浏览内容,为网络管理提供深层次的决策支持。因此,需要一个分析平台能够对校园网日志进行数据挖掘,将数据挖掘技术应用于校园网,以发现校园网用户的浏览模式,分析站点的使用情况并得到相关数据关联规则,为网络管理提供有力的决策支持保障,也为将来在多平台多数据库的联动挖掘做好准备。
参考文献
[1]孔德剑.关联规则在大学生就业信息库中的应用研究[J].中国科技信息,2009(13).
[2]赵燕,曲守宁,赵玲,等.基于数据挖掘的课程相关性分析系统的应用研究[J].山东科学,2009(1).
[3]白连红,徐澍.两种基于关联规则的挖掘算法在电子商务中的改进[J].科技信息,2009(24).
[4]吕英华,马静.数据仓库技术在医院信息系统中的应用[J].医疗卫生装备,2009(4).
[5]张劲松.高等函授教育学生信息管理系统的设计与实现[J].西安航空技术高等专科学校学报,2007(3).