基于DNS日志的用户访问行为分析和研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户：feifeijoy

【摘要】

：

【作者】

：

魏佳代

【出处】

：

北京交通大学

【发表日期】

：

2019年01期

【关键词】

：

DNS日志分类聚类用户特征 K-means

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

国内的各个高校先后建设了自己的校园网络,实现了教育信息化和互联网化。快速便捷的校园网络为高校师生提供了丰富的资源,开阔了学生的眼界。用户在使用网络获取信息的同时,会产生大量的访问数据,从海量的用户访问数据中挖掘出有价值的信息成为近年来的研究热点。在复杂繁多的日志中提取有价值的信息并对这些信息进行分析和建模是本文研究的主要内容。本文以学校信息中心的DNS日志为数据源,所做的主要工作如下:(1)对原日志数据过滤和清洗。去除重复和无用的数据,为以后的数据分析打下基础。(2)对日志中用户访问域名分类的研究。在DNS日志中,用户访问的域名是一个非常重要的字段,通过对域名的归类,能够得到用户的部分网络访问特征。本文采用域名分类库和域名分类器两种工具相结合的方法对域名进行主题归类。域名分类库的建立是通过网络爬虫爬取域名分类网站得到的。域名分类器则是采用机器学习算法在大量的已经归好主题类别的域名基础上训练得到的,主要作用是对未在域名分类库中匹配到的域名归类。(3)对用户网络访问特征聚类的研究和分析。通过对用户访问的域名标签化处理,得到用户行为特征向量,之后进一步对这些数据做聚类分析,得到不同的用户群的访问特点。本文分析了K-means聚类算法的不足之处,采取Canopy算法和K-means相结合的方式来对用户聚类分析。针对课题数据存在数据量大且维数较多的特点,本文实现了基于Map Reduce编程框架下的分布式K-means聚类算法,实验证明,该算法能够有效的根据用户特征聚类。(4)用户网络行为特征的统计分析。本文从多个方面对学生上网行为特征进行了分析,包括不同时段用户访问活跃度、用户访问域名主题分析、域名访问量分析、各个用户群的特征分析等等,在多个维度上展现了用户的访问特征。本论文通过对北京交通大学信息中心的DNS日志挖掘和分析,得到用户的上网行为习惯和访问偏好,最终得到学生的网络行为特征,旨在引导学生合理的应用网络,为全校师生提供更优质的网络服务,为校园管理人员掌握学生的网络使用状况提供依据。

其他文献

高校财务管理中的问题与措施研究

近年来,我国高等教育体制改革逐渐深化,高校教学经费来源从单一的财政拨款方式转变为其他多种筹资方式,渠道越来越多样化,这样的情况下让高校的财务管理面临新的挑战,财务关

期刊

高校财务管理问题与措施

正确认识人大代表的人身自由保障

《人民政坛》编辑部：最近，媒体报道了几条人大代表被罢免的消息，其中大多数都是因触犯国家刑律所致。每每看到这样的消息，我的心里总不是滋味。这些被罢免的人大代表中，有的是在当

期刊

人身自由人民代表大会法律面前人人平等

图像学语境下的中世纪基督教与伊斯兰教宗教建筑比较研究

宗教建筑构成了建筑史研究的重要内容。在人类的文明史中，宗教建筑不仅仅是功能性建构，它是对宗教教义所做的有形陈述，更是人类自身对生存意义的深刻表达。作为铭刻人类精神和物

学位

宗教建筑基督教伊斯兰教图像学比较研究两希文明本体论

实施教案学案一体化,实现英语课堂教学高效性

高中教师要想实现英语课堂教学的高效,究竟是采用教案教学还是学案教学,成为众多高中英语教师探究的问题。本文结合新课改要求和学生认知特点以及英语课堂教学实际,介绍了在

期刊

教案学案一体化高效

感性设计过程中的映射方法研究

感性设计旨在将顾客的感性需求集成到新产品的设计元素中，以提高顾客满意度。确定感性词汇和设计元素之间的映射关系，是感性设计研究的核心议题。现已提出一些方法来建立感性映

学位

感性设计感性映射单一表响应建模序次Probit回归关联规则提炼

基于精益生产的注塑模生产流程改进

注塑模的加工生产具有少量多样、切换频繁、技术含量高、管理难度大、加工周期长、交期难以控制、成本难以精确计量的特点。在注塑模的生产过程中，普遍存在着模具设计方案多变

学位

精益生产持续改善流程优化

公私合营模式（PPP）在滨海新区开发中的应用研究

资金的缺乏是国内外政府部门在建设运营维护基础设施中所遇到的一个共同的问题PPP项目融资模式，即公共部门与私人部门建立合作伙伴关系用于提供公共产品或服务的一种方式，是一

学位

PPP模式基础设施项目融资滨海新区

复杂长距离引水隧洞群施工全过程仿真优化与进度控制关键技术研究

长距离引水隧洞群通常都要穿越大的山体或者山脉群，洞线长，开挖洞径大，埋深大，单工作面施工长度长。由于受到地形条件的限制，沿线一般要穿越不同地层岩性、断裂构造较为发育、岩体

学位

长距离引水隧洞群施工仿真实时控制进度偏差不良地质风险分析

竖向分布钢筋部分连接的混合装配式剪力墙抗震性能研究

我国大力支持并推进装配式建筑工业化的发展。预制钢筋混凝土剪力墙结构有利于工程安全、质量、工期及成本等方面的改善,同时有利于节能、减排及降耗。受力钢筋连接技术导致

学位

混合装配式剪力墙抗震性能拟静力试验数值模拟

基于ANSYS热分析的蓄冰球蓄冷特性的数值模拟与研究

研究自然对流情况下蓄冰球的蓄冷特性，考虑球壁热阻对蓄冷过程的影响，借助ANSYS热分析，数值模拟了球壁厚度、载冷剂入口温度和蓄冰球几何形状与蓄冷时间的关系，得出了改进蓄冰球

期刊

蓄冰球蓄冷特性ANSYS热分析

基于DNS日志的用户访问行为分析和研究

与本文相关的学术论文