基于DNS日志的用户访问行为分析和研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:feifeijoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国内的各个高校先后建设了自己的校园网络,实现了教育信息化和互联网化。快速便捷的校园网络为高校师生提供了丰富的资源,开阔了学生的眼界。用户在使用网络获取信息的同时,会产生大量的访问数据,从海量的用户访问数据中挖掘出有价值的信息成为近年来的研究热点。在复杂繁多的日志中提取有价值的信息并对这些信息进行分析和建模是本文研究的主要内容。本文以学校信息中心的DNS日志为数据源,所做的主要工作如下:(1)对原日志数据过滤和清洗。去除重复和无用的数据,为以后的数据分析打下基础。(2)对日志中用户访问域名分类的研究。在DNS日志中,用户访问的域名是一个非常重要的字段,通过对域名的归类,能够得到用户的部分网络访问特征。本文采用域名分类库和域名分类器两种工具相结合的方法对域名进行主题归类。域名分类库的建立是通过网络爬虫爬取域名分类网站得到的。域名分类器则是采用机器学习算法在大量的已经归好主题类别的域名基础上训练得到的,主要作用是对未在域名分类库中匹配到的域名归类。(3)对用户网络访问特征聚类的研究和分析。通过对用户访问的域名标签化处理,得到用户行为特征向量,之后进一步对这些数据做聚类分析,得到不同的用户群的访问特点。本文分析了K-means聚类算法的不足之处,采取Canopy算法和K-means相结合的方式来对用户聚类分析。针对课题数据存在数据量大且维数较多的特点,本文实现了基于Map Reduce编程框架下的分布式K-means聚类算法,实验证明,该算法能够有效的根据用户特征聚类。(4)用户网络行为特征的统计分析。本文从多个方面对学生上网行为特征进行了分析,包括不同时段用户访问活跃度、用户访问域名主题分析、域名访问量分析、各个用户群的特征分析等等,在多个维度上展现了用户的访问特征。本论文通过对北京交通大学信息中心的DNS日志挖掘和分析,得到用户的上网行为习惯和访问偏好,最终得到学生的网络行为特征,旨在引导学生合理的应用网络,为全校师生提供更优质的网络服务,为校园管理人员掌握学生的网络使用状况提供依据。
其他文献
近年来,我国高等教育体制改革逐渐深化,高校教学经费来源从单一的财政拨款方式转变为其他多种筹资方式,渠道越来越多样化,这样的情况下让高校的财务管理面临新的挑战,财务关
《人民政坛》编辑部:最近,媒体报道了几条人大代表被罢免的消息,其中大多数都是因触犯国家刑律所致。每每看到这样的消息,我的心里总不是滋味。这些被罢免的人大代表中,有的是在当
宗教建筑构成了建筑史研究的重要内容。在人类的文明史中,宗教建筑不仅仅是功能性建构,它是对宗教教义所做的有形陈述,更是人类自身对生存意义的深刻表达。作为铭刻人类精神和物
高中教师要想实现英语课堂教学的高效,究竟是采用教案教学还是学案教学,成为众多高中英语教师探究的问题。本文结合新课改要求和学生认知特点以及英语课堂教学实际,介绍了在
感性设计旨在将顾客的感性需求集成到新产品的设计元素中,以提高顾客满意度。确定感性词汇和设计元素之间的映射关系,是感性设计研究的核心议题。现已提出一些方法来建立感性映
注塑模的加工生产具有少量多样、切换频繁、技术含量高、管理难度大、加工周期长、交期难以控制、成本难以精确计量的特点。在注塑模的生产过程中,普遍存在着模具设计方案多变
资金的缺乏是国内外政府部门在建设运营维护基础设施中所遇到的一个共同的问题PPP项目融资模式,即公共部门与私人部门建立合作伙伴关系用于提供公共产品或服务的一种方式,是一
长距离引水隧洞群通常都要穿越大的山体或者山脉群,洞线长,开挖洞径大,埋深大,单工作面施工长度长。由于受到地形条件的限制,沿线一般要穿越不同地层岩性、断裂构造较为发育、岩体
我国大力支持并推进装配式建筑工业化的发展。预制钢筋混凝土剪力墙结构有利于工程安全、质量、工期及成本等方面的改善,同时有利于节能、减排及降耗。受力钢筋连接技术导致
研究自然对流情况下蓄冰球的蓄冷特性,考虑球壁热阻对蓄冷过程的影响,借助ANSYS热分析,数值模拟了球壁厚度、载冷剂入口温度和蓄冰球几何形状与蓄冷时间的关系,得出了改进蓄冰球