校园网日志挖掘平台研究

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:dingdang7456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着学校信息化建设水平的不断提升,校园网内大量的数据信息不停地产生并囤积在服务器中。如何从这些数据里提取出有用的知识,已经成为计算机技术研究的热门课题。
  关键词:校园网日志 研究 计算机
  中图分类号:TP11.5 文献标识码:A 文章编号:1674-098X(2013)02(a)-0025-01
  1 校园网日志挖掘平臺研究目的及意义
  目前大部分学校的日志信息仅储存后用作突发事件取证留档,没有对其进行进一步的分析研究,信息管理人员认为此类数据信息一旦超过有效期(如3个月)就没有任何意义,可以进行删除用来回收存储空间。其实海量历史数据中就包括了校园网络使用日志,日志内容涉及用户使用网络的各个方面,包含时间、人员、目的、方法等,为数据挖掘工作提供了坚实的基础。通过校园网日志挖掘平台能够回答管理者最关心的问题:不同的用户分别在浏览什么网站,关心什么问题;校园网各个页面之间访问关联关系、频率、流量等。通过挖掘研究,能够得到用户的使用频率、使用目的、使用方法等,对网络调整及规划具有一定的辅助决策作用。校园网日志较普通网络日志有较为明显优势:在有设备支持的情况下,可以根据用户使用IP查询到用户基本对应关系(如学/工号),大大提高了在数据挖掘算法在用户识别环节的分析能力。以上海大学校园网为例,系统通过自行开发的IP地址管理程序以及网络出口审计程序,能够基本准确的匹配到使用用户信息,并且可以再借由上海大学自有的信息管理系统以及各类系统接口,通过以学/工号为主键的信息反馈到学校其他部门进行专项研究,由平台提供统一数据接口,直接提供给学校其他有类似需求的部门进行个性化在线分析,为学校各类决策支持提供数据依托,实现横向数据挖掘,这也是本研究未来的发展方向。
  2 校园网日志挖掘平台研究初探
  2.1 数据采集及预处理
  校园网日志分析平台的实验数据来源主要来自于校内出口计费系统上学生上网行为日志,以及上海大学子新开发的IP申请系统中IP所对应的个人信息。由于系统设计或多系统兼容性问题,存在采集数据有噪声、不完整和不一致的情况,必须进行数据清洗,提高挖掘过程的精度和性能。(1)缺失值。经过对几个数据来源系统的数据进行分析,得出结论:在实际运行过程中数值缺失的情况相对较少,因为上海大学用户上网全部采用实名认证的登录方式,只有非常陈旧的数据无法在IP系统中关联,并且主要集中在多系统之间对应数据不完整的情况下,该文研究中将直接舍弃这些存在数据缺失的条目,因为根据大致统计可以看出,缺失条目与附近的数据差异并不大,舍弃这些条目对后期分析不会造成太大的影响。(2)噪声数据。该文采集数据中的噪声主要来自于学校内用户访问外网或进行某些网上操作时必须要经过的某些特殊路径,一种情况是在某些特殊时期对固定网站的频繁访问,如选课期间以及考试期间,大量频繁访问固定网站会对该时期用户真实访问兴趣点造成影响,另一种情况则是由于用户在按入终端上安装的某些软件会自动与服务器连接通信,包括自动下载等功能,也会造成大量频繁访问,因此需要针对以上两种特殊现象进行去噪处理。本研究中的出具解决方法是将此类网站日志暂时屏蔽,不纳入到分析样本中,以此来消除对最终数据挖掘结果的影响。
  2.2 校园网日志统计与分析
  本研究拟采用ASP.NET环境开发日志统计分析软件,按照日、周、月、学期对校园日志数据进行统计和监控,并生成相应图表。日志属于来自于学校出口计费系统,主要有以下一个关键字段作为统计列:(1)tarip(目标地址)记录用户访问目标IP地址。(2)protocol(协议类型)筛选http或http-download。本研究假射其余的默认为非网页访问,不纳入统计分析范围内。(3)rawdate(记录时间)记录了日志时间。(4)snapshot(地址快照)记录了用户所访问网络资源的url,格式如下:host/url/subject/bodysize。将其中的url清理后获取访问网页有效地址。在统计分析工作前,将编写程序将tarip中的信息通过学校自行开发的IP地址管理系统转换为访问用户的实际学/工号,用来进行分类统计分析操作。
  2.3 校园网关联规则分析
  本研究拟采用开源的Apriori算法进行关联规则分析,找出校园网用户在各网站之间的访问规则。研究中的Apriori算法前期准备工作如:(1)用户识别:可以借用在统计分析中已经转换好的访问数据直按导入,保证了用户识别的准确性,最大限度的降低了识别错误率。(2)会话识别:本研究暂时采用公认度比较高的时间区分法,取26 min为阂值,在此时间范围内用户对同一网站的多次访问理解为对该网站的一次会话操作。(3)频繁项集:根据笔者多次的实际操作,暂定取支持度为0.02。笔者认为支持度偏低,但是提高后有效网站明显减少,推断可能和测试数据量有关,等待进一步完善后将所有数据导入后再做调整。同时在有效网站中,依然存在如360.cn,qq.com等网站,笔者推断这些依然属于前面提到的噪声数据,可能对关联规则产生影响,必须采取有效措施改善。(4)关联规则:根据笔者多次的实际操作,暂定取置信度为0.5。最终分析结果中出现的关联规则中有前面提到的360、QQ所属的网站,并且规则意义不大。因此在后期完善国政中必定将在这一方面进行大量调整操作。
  针对校园网内部网站的访问规则,笔者就此二次过滤了原始数据,并以相同的方式进行关联规则分析,也出现了如学校登录界面频繁访问等现象,需要对此进行调整。校园网站导航优化基于学校内所有站点内容,通过基于关联规则的数据挖掘技术能够了解用户在网站之内以及网站之间的访问顺序及关系,将导航工作延伸到单个站点之外,明确分析出用户在各网站兴趣点之间的关联,在优化网站内页面之间内容分布的同时,适当加入用户可能感兴趣,但在其他网站上的内容的链接,从源头上提高用户访问该网站的可能性,就能更好地引导用户进入感兴趣的页面,也能提高网站的访问量。
  3 结语
  学校大量存储的数据通过数据挖掘技术能够分析用户上网行为与趋势,了解用户在网络中的浏览内容,为网络管理提供深层次的决策支持。因此,需要一个分析平台能够对校园网日志进行数据挖掘,将数据挖掘技术应用于校园网,以发现校园网用户的浏览模式,分析站点的使用情况并得到相关数据关联规则,为网络管理提供有力的决策支持保障,也为将来在多平台多数据库的联动挖掘做好准备。
  参考文献
  [1]孔德剑.关联规则在大学生就业信息库中的应用研究[J].中国科技信息,2009(13).
  [2]赵燕,曲守宁,赵玲,等.基于数据挖掘的课程相关性分析系统的应用研究[J].山东科学,2009(1).
  [3]白连红,徐澍.两种基于关联规则的挖掘算法在电子商务中的改进[J].科技信息,2009(24).
  [4]吕英华,马静.数据仓库技术在医院信息系统中的应用[J].医疗卫生装备,2009(4).
  [5]张劲松.高等函授教育学生信息管理系统的设计与实现[J].西安航空技术高等专科学校学报,2007(3).
其他文献
同志们:这次全省盐业工作会议的主要任务是:以邓小平理论和“三个代表”重要思想为指导,全面落实科学发展观,认真贯彻党的十七大和省十二次党代会精神,回顾总结过去一年的工作,分析
以某医院综合楼为研究对象,采用ANSYS有限元空间分析软件对其结构进行数字建模,通过对模型初始模态进行分析得出了该模态下结构的位移变形量。同时还分析结构在劲风荷载作用
本文通过对《国家计委、国家经贸委关于改进工业盐供销和价格管理办法的通知(计价格[1995]1872号)》与《浙江省盐业管理条例》的有关规定进行比较分析,得出《国家计委、国家经贸
摘 要:林业在这个21世纪已经成为一项公益事业,林业工作的最终目的是保护环境,为人们的生活和生态创造出更好的生活方式和生活环境。在当今这个经济快速发展的社会上来说,林业承担着巨大的重任。下面笔者会简要介绍一下生态林业的内容,并对当今林业生态环境建设中存在的问题做具体分析,最后笔者会对林业生态环境建设的有效措施和林业生态环境建设在可持续发展中战略地位做具体的阐述。  关键词:林业保护 环境 可持续发
该文针对中小企业在实施商业智能系统时所面临的困难,提出构建商业智能SAAS系统的建议。该系统可以为不同中小企业提供共享的和定制的商业智能服务。该文在分析中小企业对商
一、基本概况前段时间“全民食盐加碘”造成了补碘过量的一些质疑,成为热门话题,在社会上造成了一些不良影响。今年5月17日,《健康报》头版头条刊登了“食盐加碘并未造成居民碘
面对国家深化盐业体制改革、市场竞争更趋激烈的新形势,省盐业集团紧紧抓住加快发展现代服务业的有利时机,以食盐流通现代化建设为中心,积极应对盐业市场化的挑战,加大土地资源优
绿海公司的企业宗旨有40个字:以人为本,质量第一,用户至上,互利双赢,汇聚人才,自主创新,领先行业,成就品牌,产业报国,造福人类。每一个词都阐述了绿海公司的经营理念和战略。下面从四个
在排球运动中,垫球是运用最广泛的一项基本技术,其技术看似简单,但动作较难掌握,给大学生排球课带来了相当大的困难。该文通过排球选项班的女生进行了对比实验:在排球技术教学
按照《浙江省盐业优秀论文评比办法》规定,经浙江省盐学会理事会评定,本次论文评选活动共有4篇论文获浙江省盐业优秀论文二等奖,8篇论文获三等奖,具体获奖论文名单如下: