论文部分内容阅读
摘要:校园网的用户行为指的是在使用网络的时候,用户所表现出来的一种规律,在这里,可以使用一些特别的定量表示出来,校园网用户行为有着比较特殊的特征,这是普通网络使用群众无法具备的。在现社会的校园网当中,有着越来越多的挖掘技术,利用这些技术来分析校园网的用户行为,对宽带进行合理的分配,有助于提升校园网用户的使用效率。本文就对应用于校园网用户行为分析的K-means聚类算法进行叙述,供参考。
关键词:校园网用户行为;分析;K-means聚类算法
引言:
现社会,不少院校对于校园网的管理都比较欠缺,通常都会采用服务器来进行管理,比如在认证计费和流量监控等方面都会使用进服务器,服务器在服务的过程当中,会产生很多的数据,这些数据都会自动保存在后台数据库里面。全部的数据里面,有一些是和校园网有关的,有的数据是和校园网的使用、运行状态有关的,假如把这些数据进行分析和利用,就可能会对整个校园网起到很好的协助作用。使用K-means聚类算法能够有效的对整个用户行为进行分析,并且描述出校园网用户行为和网络的运行实时情况,K-means聚类算法在校园网用户行为特征和使用情况以及校园网的分布等诸多方面有着非常好的作用。
1.K-means聚类算法的概括
K-means聚类算法是一种相对来说比较重要有效的挖掘方式,将物理现象和抽象对象进行了分组的一个过程,相似的对象就分为一组,不同的对象再分为一类,可以把聚类算法分成很多个群体,各个群体内部的对象都有着比较强的相似度,但是,这种相似度在不同的群体之间却很低,这也是聚类算法的一大特征。可以把聚类算法分成几种类型:划分方法、层次方法、基于网格的方法等,每一種方法虽然表面上都没有多大的联系,但是却都有着自己的代表算法。K-means聚类算法就是诸多聚类算法中的一种,它属于划分方法的行列,K-means聚类算法有一个很显著的特点,就是它有着比较好的可伸度和效率,比较适合用在大文档案的处理过程当中。K-means聚类算法可以把物理对象或抽象对象进行分组,相似的对象分为一组,彼此相似的一组对象组成的集合和不同聚类当中的对象相比,相似度有着一定的差异,而给定的那个数据项之间会有一定的价值存在,这些价值都会导致聚类和同一聚类当中的对象相似度极高,相反,不同剧聚类当中的相似度反而很小。
2.校园网用户行为分析的K-means聚类算法的数据准备
2.1理解数据
校园网用户行为产生的数据基本上都是来自认证计费数据库当中的,日常的数据都会保存在登录数据库里面。要想利用K-means聚类算法来分析出校园网的用户行为,就要先建立一个用户特征的反映系统,日志数据表当中所提供出来的二十三个字段就是校园网的基础,在确定了参数之后,还需要确定校园网用户的特征项。比如,用户登录日志的时候记录的都是第一次登录的数据,也可以理解成一个用户有着很多条登录的信息,这是不具有统一性的。因此,要想在真正意义上实现校园网用户行为的分析,就必须要根据登录表当中的IP地址来进行统计,并且,还要对每一个校园网用户的月使用流量进行分析和统计,从中将使用流量提取出来。
2.2数据处理
数据处理的这个过程需要使用到SQL2005的ETL工具,其能够有效的对校园网用户数据进行处理,比如,在日志数据库当中提取到某个月的数据,假如是2016年8月的数据,这个月校园网用户登录日志的量高达215681条。按照数据的生成需求,只需要用到3个字段就可以了。
2.3数据处理过程
专家可以先设计一个数据流,再利用SQLSever2005的SSIS工具将其生成为K-means聚类算法需要的数据,这也就逐渐形成了K-means聚类算法的初始输入文件,假如登录表显示的数量是3381行,那么就证明2016年8月的IP数值达到了3381条,在登录记录表当中,K-means聚类算法可以把IP地址当成是文件的关键字段。整个数据流的过程都需要采用ETL工具来对数据进行抽取,尽量抽取出一些符合要求或条件的校园网用户行为数据,在抽取完毕之后,才能通过数据做样本模型。
3.调整算法参数
3.11Clustering_Method参数
Clustering-Method参数能够明确的指出哪一种算法决定聚类的组成部分,这种参数的算法总共可以分成四种,首先是可以伸缩的EM算法,其次是较为普通的EM算法,虽然表面上都是EM算法,但是后者是不具有伸缩性的。除此以外,还有可伸缩的K-means算法以及不可伸缩的K-means算法,通常情况下,使用最多的就是可伸缩的K-means算法。
3.2Cluster_Count参数
Cluster-Count参数是K-means聚类算法当中的k值,它能够算出需要多少个聚类,假如把Cluster-Count参数的值暂定为0,那么K-means聚类算法就会把数据当中的聚类个数估测出来,在经过了对比和调整以后最终选择K值为3,这种分类也是最具独立性的。
结束语:
在校园网用户行为的分析上,使用K-means聚类算法能够更加有效对数据、K值进行分析,从而更好的分析出用户行为,并且,这也是一种新的尝试,聚类结果给校园网管理人员提供了更多的用户行为,这样就可以制定出更多的网络策略。
参考文献:
[1]李旭.基于聚类技术的校园网络用户行为数据分析研究[D].山东师范大学,2016.
[2]杨志忠.基于Hadoop的网络用户行为分析[D].兰州理工大学,2016.
[3]马仕玉.聚类算法及其在校园网用户行为分析中的应用[D].重庆交通大学,2015.
[4]黎慧娟.校园网用户行为的分析与研究[D].广西大学,2007.
关键词:校园网用户行为;分析;K-means聚类算法
引言:
现社会,不少院校对于校园网的管理都比较欠缺,通常都会采用服务器来进行管理,比如在认证计费和流量监控等方面都会使用进服务器,服务器在服务的过程当中,会产生很多的数据,这些数据都会自动保存在后台数据库里面。全部的数据里面,有一些是和校园网有关的,有的数据是和校园网的使用、运行状态有关的,假如把这些数据进行分析和利用,就可能会对整个校园网起到很好的协助作用。使用K-means聚类算法能够有效的对整个用户行为进行分析,并且描述出校园网用户行为和网络的运行实时情况,K-means聚类算法在校园网用户行为特征和使用情况以及校园网的分布等诸多方面有着非常好的作用。
1.K-means聚类算法的概括
K-means聚类算法是一种相对来说比较重要有效的挖掘方式,将物理现象和抽象对象进行了分组的一个过程,相似的对象就分为一组,不同的对象再分为一类,可以把聚类算法分成很多个群体,各个群体内部的对象都有着比较强的相似度,但是,这种相似度在不同的群体之间却很低,这也是聚类算法的一大特征。可以把聚类算法分成几种类型:划分方法、层次方法、基于网格的方法等,每一種方法虽然表面上都没有多大的联系,但是却都有着自己的代表算法。K-means聚类算法就是诸多聚类算法中的一种,它属于划分方法的行列,K-means聚类算法有一个很显著的特点,就是它有着比较好的可伸度和效率,比较适合用在大文档案的处理过程当中。K-means聚类算法可以把物理对象或抽象对象进行分组,相似的对象分为一组,彼此相似的一组对象组成的集合和不同聚类当中的对象相比,相似度有着一定的差异,而给定的那个数据项之间会有一定的价值存在,这些价值都会导致聚类和同一聚类当中的对象相似度极高,相反,不同剧聚类当中的相似度反而很小。
2.校园网用户行为分析的K-means聚类算法的数据准备
2.1理解数据
校园网用户行为产生的数据基本上都是来自认证计费数据库当中的,日常的数据都会保存在登录数据库里面。要想利用K-means聚类算法来分析出校园网的用户行为,就要先建立一个用户特征的反映系统,日志数据表当中所提供出来的二十三个字段就是校园网的基础,在确定了参数之后,还需要确定校园网用户的特征项。比如,用户登录日志的时候记录的都是第一次登录的数据,也可以理解成一个用户有着很多条登录的信息,这是不具有统一性的。因此,要想在真正意义上实现校园网用户行为的分析,就必须要根据登录表当中的IP地址来进行统计,并且,还要对每一个校园网用户的月使用流量进行分析和统计,从中将使用流量提取出来。
2.2数据处理
数据处理的这个过程需要使用到SQL2005的ETL工具,其能够有效的对校园网用户数据进行处理,比如,在日志数据库当中提取到某个月的数据,假如是2016年8月的数据,这个月校园网用户登录日志的量高达215681条。按照数据的生成需求,只需要用到3个字段就可以了。
2.3数据处理过程
专家可以先设计一个数据流,再利用SQLSever2005的SSIS工具将其生成为K-means聚类算法需要的数据,这也就逐渐形成了K-means聚类算法的初始输入文件,假如登录表显示的数量是3381行,那么就证明2016年8月的IP数值达到了3381条,在登录记录表当中,K-means聚类算法可以把IP地址当成是文件的关键字段。整个数据流的过程都需要采用ETL工具来对数据进行抽取,尽量抽取出一些符合要求或条件的校园网用户行为数据,在抽取完毕之后,才能通过数据做样本模型。
3.调整算法参数
3.11Clustering_Method参数
Clustering-Method参数能够明确的指出哪一种算法决定聚类的组成部分,这种参数的算法总共可以分成四种,首先是可以伸缩的EM算法,其次是较为普通的EM算法,虽然表面上都是EM算法,但是后者是不具有伸缩性的。除此以外,还有可伸缩的K-means算法以及不可伸缩的K-means算法,通常情况下,使用最多的就是可伸缩的K-means算法。
3.2Cluster_Count参数
Cluster-Count参数是K-means聚类算法当中的k值,它能够算出需要多少个聚类,假如把Cluster-Count参数的值暂定为0,那么K-means聚类算法就会把数据当中的聚类个数估测出来,在经过了对比和调整以后最终选择K值为3,这种分类也是最具独立性的。
结束语:
在校园网用户行为的分析上,使用K-means聚类算法能够更加有效对数据、K值进行分析,从而更好的分析出用户行为,并且,这也是一种新的尝试,聚类结果给校园网管理人员提供了更多的用户行为,这样就可以制定出更多的网络策略。
参考文献:
[1]李旭.基于聚类技术的校园网络用户行为数据分析研究[D].山东师范大学,2016.
[2]杨志忠.基于Hadoop的网络用户行为分析[D].兰州理工大学,2016.
[3]马仕玉.聚类算法及其在校园网用户行为分析中的应用[D].重庆交通大学,2015.
[4]黎慧娟.校园网用户行为的分析与研究[D].广西大学,2007.