论文部分内容阅读
摘 要: 智能手机带来了便利,也存在危害,手机成瘾问题已经引起社会的关注。文章提出一种针对手机成瘾用户的K-means辅助研究方法。将使用时间抽象出来,将手机使用时间与使用次数相结合进行研究,将成瘾用户根据不同原因分成为四类。对每类用户进行不同方法研究,以便对其进行针对性的帮助。
关键词: 手机成瘾; 聚类; K-means; 数据挖掘
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2018)07-17-04
Abstract: Smart phone has brought people the convenience but also the harm, the problem of addiction of smart phone has attracted the attention of the society. This paper proposes a research method of K-means clustering for the addiction users of smart phone. The use time of smart phone is abstracted, the use time and use number of smart phone are combined to study the addiction users, and the addiction users are classified to four categories according to the different reasons. Different type of users is studied with different method so as to help them in a targeted way.
Key words: addiction of smart phone; clustering; K-means; data mining
0 引言
據统计,2017年上半年智能手机的用户规模已经达到了6.55亿人,智能手机的出货量也呈现出逐年递增的趋势。智能手机拥有极高的普及率,在日常生活中拥有和使用手机的人数远远超过其他电子产品。此外,未成年人群体虽然不具有较高的购买能力,但持有智能手机的未成年人数量不断增多。手机成瘾现象日趋普遍。本文研究的重点在于:根据用户日常使用手机,将使用时间与使用次数抽象成统一的度量单位,对用户进行分类,试图通过分类,能够做出有针对性的解决方案。
1 手机成瘾现状
智能手机不仅便于携带,美观时尚,且操作简单,功能多样,吸引着未成年人以及成年人。智能手机已成为人们日常生活中的重要部分,并深刻改变着人们的生活方式。随之而来的问题是,智能手机成瘾现象十分严重。据BBC报道,有关人员在韩国约1000名学生的调查发现,72%的学生在11岁或12岁时就有了一部智能手机,他们平均每天花5.4小时在手机上。其中四分之一的孩子被认为对智能手机上瘾。不仅是未成年人,由于控制力不强导致手机成瘾,大部分成年人也在社交、娱乐等方面对智能手机产生了过度依赖。
Flurry机构曾对来自13亿台移动设备、50万个应用数据进行了分析。如图1所示,我们可以很清楚的发现,2014年相比于2013年,一年时间内的智能手机成瘾者从7900万上升到1.76亿人次。以一天八小时睡眠,每天打开应用60次计算,平均每个智能手机使用者一小时要打开手机应用3.75次(每16分钟打开一次)。当下智能手机成瘾状况不容乐观,故协助或帮助手机成瘾用户是非常有必要的。
本文将数据挖掘领域与智能手机成瘾问题结合,力求寻找该问题的解决方法。在研究过程中,不仅将用户分为成瘾者与非成瘾者,还将成瘾者根据不同原因进一步分类。我们将采用K-means算法对用户进行聚类,根据智能手机使用者不同的成瘾原因寻求相对应的解决方法,从而对各类手机成瘾者实施合理有效的干预与帮助。
2 相关工作
2.1 手机成瘾研究
目前在手机成瘾方面的研究基本上局限于提出问题、分析原因。很少有研究者能够切实关注到解决问题上,采用数据挖掘的方法进行研究更是少数[1-2]。有很多文章都是对大学生成瘾问题进行分析,成瘾问题没有得到解决[3]。分析表明青少年网络成瘾与智能手机成瘾成正比,根据详尽数据分析,得出了互联网成瘾和智能手机成瘾之间存在重要的相关性[4]。本文研究了一款App,让人们意识到智能手机上瘾和智能手机综合症,为减少成瘾人数,该App提供了引导使用者练习瑜伽来缓解对手机的依赖。
目前已有众多试图解决手机使用成瘾问题的手机软件,主要的有以下几类。
⑴ 停止手机(スマやめ)[5]软件是由Takeshi Segawa公司开发的软件。该软件是一款宠物养成类小游戏,只有在不使用手机时,电子宠物才会成长,一旦运行其他程序,一部分成果就会作废。
⑵ Timer lock3开发了这种惩罚措施更加严格的软件,设置一定时间内,手机会被上锁,除了紧急电话外一切操作都无法进行。
⑶ RealizD Pty Ltd开发的小容通过记录用户解锁次数和时间等,给使用者呈现使用数据。
⑷ 还有一些软件针对干预未成年人的手机使用时间,例如监护人可以通过设定使用时间来控制未成年人使用手机的时间长度等。
这几类软件有利于手机用户控制手机使用时间,短时间内可能会有一定的效果,但也存在对手机用户造成反感心理的情况。
2.2 方法研究
聚类是一种常见的数据分析工具,其目的是把大量的数据分成若干蔟,每一个蔟都具有相似特征[6]。文将聚类算法分为五类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法以及用于高维数据的聚类算法。在这几类分类算法中,各有其优缺点。本文选取分割聚类算法中的K-means聚类算法,它的优缺点正是我们研究的重点。K-means聚类算法是最经典的算法之一[7],它以其简单实用应用广泛[8]。文对K-means算法进行了改进,在聚类之前排除了孤立点的影响,提出了一种新的选取初始聚类中心的方法。 3 数据挖掘辅助解决手机成瘾
3.1 数据预处理
数据预处理是数据挖掘过程中的首要步骤,数据的好坏直接关系最终结果的正确性。原始数据可能因为缺乏统一标准,数据的结构形式差异较大,有些数据甚至是不可用的。一个良好的数据挖掘系统必须包含数据预处理这重要的一步。本文从数据采集开始就注意对原始数据的标准化,防止原始数据影响最后结果。
手机用户对智能手机成瘾的主要原因是现在智能手机软件丰富多样,吸引力巨大。在丰富多彩的手机软件中,游戏类软件、社交类软件、视频类软件三类软件是最容易产生手机成瘾的软件类型。我们认为使用其他类软件对用户的成瘾危害的影响较小,暂不考虑。
我们根据用户对各类软件使用时间进行数据采集,生成一个用户的特征向量:
数据主要根据软件的使用时间来决定,但根据不同情景做出不同的调整。我们定义几条规则,规则如下。
定义1:将一天每半小时为一个增长点,一天平均设为48时间段,每个时间段都属于一个软件类型。
定义2:如果不足半小时,属于在此时间段中使用时间最长的软件类型。
定义3:某时间段内对一种软件类型使用时间过大,可以适量增加该软件类型的数值。
定义4:当获取若干天的数据时,计算该用户的平均数据。
根据定义1、2、3和各类软件的使用次数获得用户的特征向量A。
3.2 K-means聚类
1967年,MacQueen首次提出K-means算法。到现在,K-means以其速度快,便于理解且聚类效果不错的优点得到研究者的广泛亲睐。该算法的核心思想是找到K个聚类中心C1,C2,…..CK,使得每一个数据点Xi和与其相近的聚类中心Cv的平方距离和最小化[9]。
步骤1 选取K个中心点,计算样本Xi与这个中心点的距离,得到距离中心最近的,将其归为同一个簇。
步骤2 将获得的K个蔟,每个蔟重新计算中心点,再重复执行步骤1。
步骤3 不断进行迭代,知道满足一定条件方可终止。
虽然K-means应用非常广泛,然而K-means本身存在的几个缺点需要解决,对此我们做了以下几个研究。
⑴ 在使用K-means进行聚类时首先要确定下来K的值,因为K是该算法的关键部分。本文的研究中,我们将手机用户分为K个分类,分别是无成瘾用户,对社交软件成瘾用户,对游戏成瘾用户,对视频软件成瘾用户。
⑵ K-means算法采用欧几里德距离。
⑶ 对使用者进行建模可以更加准确的进行分类。当用户对一类软件使用时间过长,可以增加该类软件的比重,例如游戏成瘾者会连续使用游戏类游戏1小时,2小时,甚至更久。定义3对该问题做出合理解决使分类可以进一步准确。
⑷ 每个蔟不再发生变化或达到预设的迭代次数时聚类结束。
通过以上研究可以将用户合理的分成K类,根据不同类中用户的不同特点对其进行合理,有效的方法帮助手机成瘾用户。
4 实验结果
我们寻找了60位志愿者来进行实验,其中大学生40人,非大学生20人。要求志愿者照常使用手机软件,记录了该60位志愿者一天的手机软件使用情况。我们可以较为清楚地得出用户一天内各类软件使用时间和使用次数。根据定义2,假设时段T中多种软件都有使用,我们只会记录使用时间最久的软件种类。同时会记录T时刻全部软件的打开次数,因此,数据会出现打开次数大于使用时间,甚至出现使用时间为零、打开次数不为零的数据。
我们通过PCA(主成分分析方法)对数据进行降维,然后使用K-means进行聚类得到如图2所示的分类图。图中加粗的图形为每一簇的中心点。将用户分成四类,分别是无成瘾,游戏类成瘾,社交类成瘾和视频类成瘾。
对不同用户进行分类,根据各自特点和喜好进行针对性研究,例如,游戏爱好者对手机的要求很高,可以相应的在某个时间段内降级手机的主频,对游戏产生较差的体验,从而降低游戏爱好者对游戏的依赖。对社交软件使用量过大的用户,采用不及时的推送方案,集中推送等措施。
5 结束语
能够帮助人们对手机的过度依赖是本文研究的主要出發点。对这方面的研究,大多数研究者停留在对成瘾原因的分析,尚未采取有效措施来解决成瘾的问题。虽然有不少软件采取禁止使用来达到目的,但此类软件的主动权在用户手中。我们结合数据挖掘领域对该问题进行研究。实验证明,我们的研究做到了根据软件的使用情况对用户分成四类,数据的收集工作可以通过操作系统、软件等多种途径。对不同分类用户采取不同推送内容,以转移其注意力,减少游戏类、社交类等消息推送,提醒使用者已经处于成瘾阶段,适度减少手机性能,影响用户体验,这些实际措施能够帮助到手机成瘾用户。
参考文献(References):
[1] 韩登亮,齐志斐.大学生手机成瘾症的心理学探析[J].当代青年研究,2005.12:34-38
[2] 王小运,伍安春.大学生手机成瘾行为的成因及其对策[J].重庆邮电大学学报(社会科学版),2012.24(1):40-43,63
[3] T. Rapeepisarn, S. Tatiyanupanwong, B. Kornvisitvatin and S. Tangsripairoj, "iRelief: An Android application for smartphone syndrome prevention and treatment,"2016 Fifth ICT International Student Project Conference (ICT-ISPC), Nakhon Pathom,2016:121-124
[4] W. Jun, "An Analysis Study on Correlation of Internet Addiction and Smartphone Addiction of Teenagers," 2015 2nd International Conference on Information Science and Security (ICISS), Seoul,2015:1-3
[5] https://itunes.apple.com.
[6] 贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007.1:10-13
[7] 金建国.聚类方法综述[J].计算机科学,2014.41(S2):288-293
[8] 周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011.21(2):62-65
[9] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008.1:48-61
关键词: 手机成瘾; 聚类; K-means; 数据挖掘
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2018)07-17-04
Abstract: Smart phone has brought people the convenience but also the harm, the problem of addiction of smart phone has attracted the attention of the society. This paper proposes a research method of K-means clustering for the addiction users of smart phone. The use time of smart phone is abstracted, the use time and use number of smart phone are combined to study the addiction users, and the addiction users are classified to four categories according to the different reasons. Different type of users is studied with different method so as to help them in a targeted way.
Key words: addiction of smart phone; clustering; K-means; data mining
0 引言
據统计,2017年上半年智能手机的用户规模已经达到了6.55亿人,智能手机的出货量也呈现出逐年递增的趋势。智能手机拥有极高的普及率,在日常生活中拥有和使用手机的人数远远超过其他电子产品。此外,未成年人群体虽然不具有较高的购买能力,但持有智能手机的未成年人数量不断增多。手机成瘾现象日趋普遍。本文研究的重点在于:根据用户日常使用手机,将使用时间与使用次数抽象成统一的度量单位,对用户进行分类,试图通过分类,能够做出有针对性的解决方案。
1 手机成瘾现状
智能手机不仅便于携带,美观时尚,且操作简单,功能多样,吸引着未成年人以及成年人。智能手机已成为人们日常生活中的重要部分,并深刻改变着人们的生活方式。随之而来的问题是,智能手机成瘾现象十分严重。据BBC报道,有关人员在韩国约1000名学生的调查发现,72%的学生在11岁或12岁时就有了一部智能手机,他们平均每天花5.4小时在手机上。其中四分之一的孩子被认为对智能手机上瘾。不仅是未成年人,由于控制力不强导致手机成瘾,大部分成年人也在社交、娱乐等方面对智能手机产生了过度依赖。
Flurry机构曾对来自13亿台移动设备、50万个应用数据进行了分析。如图1所示,我们可以很清楚的发现,2014年相比于2013年,一年时间内的智能手机成瘾者从7900万上升到1.76亿人次。以一天八小时睡眠,每天打开应用60次计算,平均每个智能手机使用者一小时要打开手机应用3.75次(每16分钟打开一次)。当下智能手机成瘾状况不容乐观,故协助或帮助手机成瘾用户是非常有必要的。
本文将数据挖掘领域与智能手机成瘾问题结合,力求寻找该问题的解决方法。在研究过程中,不仅将用户分为成瘾者与非成瘾者,还将成瘾者根据不同原因进一步分类。我们将采用K-means算法对用户进行聚类,根据智能手机使用者不同的成瘾原因寻求相对应的解决方法,从而对各类手机成瘾者实施合理有效的干预与帮助。
2 相关工作
2.1 手机成瘾研究
目前在手机成瘾方面的研究基本上局限于提出问题、分析原因。很少有研究者能够切实关注到解决问题上,采用数据挖掘的方法进行研究更是少数[1-2]。有很多文章都是对大学生成瘾问题进行分析,成瘾问题没有得到解决[3]。分析表明青少年网络成瘾与智能手机成瘾成正比,根据详尽数据分析,得出了互联网成瘾和智能手机成瘾之间存在重要的相关性[4]。本文研究了一款App,让人们意识到智能手机上瘾和智能手机综合症,为减少成瘾人数,该App提供了引导使用者练习瑜伽来缓解对手机的依赖。
目前已有众多试图解决手机使用成瘾问题的手机软件,主要的有以下几类。
⑴ 停止手机(スマやめ)[5]软件是由Takeshi Segawa公司开发的软件。该软件是一款宠物养成类小游戏,只有在不使用手机时,电子宠物才会成长,一旦运行其他程序,一部分成果就会作废。
⑵ Timer lock3开发了这种惩罚措施更加严格的软件,设置一定时间内,手机会被上锁,除了紧急电话外一切操作都无法进行。
⑶ RealizD Pty Ltd开发的小容通过记录用户解锁次数和时间等,给使用者呈现使用数据。
⑷ 还有一些软件针对干预未成年人的手机使用时间,例如监护人可以通过设定使用时间来控制未成年人使用手机的时间长度等。
这几类软件有利于手机用户控制手机使用时间,短时间内可能会有一定的效果,但也存在对手机用户造成反感心理的情况。
2.2 方法研究
聚类是一种常见的数据分析工具,其目的是把大量的数据分成若干蔟,每一个蔟都具有相似特征[6]。文将聚类算法分为五类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法以及用于高维数据的聚类算法。在这几类分类算法中,各有其优缺点。本文选取分割聚类算法中的K-means聚类算法,它的优缺点正是我们研究的重点。K-means聚类算法是最经典的算法之一[7],它以其简单实用应用广泛[8]。文对K-means算法进行了改进,在聚类之前排除了孤立点的影响,提出了一种新的选取初始聚类中心的方法。 3 数据挖掘辅助解决手机成瘾
3.1 数据预处理
数据预处理是数据挖掘过程中的首要步骤,数据的好坏直接关系最终结果的正确性。原始数据可能因为缺乏统一标准,数据的结构形式差异较大,有些数据甚至是不可用的。一个良好的数据挖掘系统必须包含数据预处理这重要的一步。本文从数据采集开始就注意对原始数据的标准化,防止原始数据影响最后结果。
手机用户对智能手机成瘾的主要原因是现在智能手机软件丰富多样,吸引力巨大。在丰富多彩的手机软件中,游戏类软件、社交类软件、视频类软件三类软件是最容易产生手机成瘾的软件类型。我们认为使用其他类软件对用户的成瘾危害的影响较小,暂不考虑。
我们根据用户对各类软件使用时间进行数据采集,生成一个用户的特征向量:
数据主要根据软件的使用时间来决定,但根据不同情景做出不同的调整。我们定义几条规则,规则如下。
定义1:将一天每半小时为一个增长点,一天平均设为48时间段,每个时间段都属于一个软件类型。
定义2:如果不足半小时,属于在此时间段中使用时间最长的软件类型。
定义3:某时间段内对一种软件类型使用时间过大,可以适量增加该软件类型的数值。
定义4:当获取若干天的数据时,计算该用户的平均数据。
根据定义1、2、3和各类软件的使用次数获得用户的特征向量A。
3.2 K-means聚类
1967年,MacQueen首次提出K-means算法。到现在,K-means以其速度快,便于理解且聚类效果不错的优点得到研究者的广泛亲睐。该算法的核心思想是找到K个聚类中心C1,C2,…..CK,使得每一个数据点Xi和与其相近的聚类中心Cv的平方距离和最小化[9]。
步骤1 选取K个中心点,计算样本Xi与这个中心点的距离,得到距离中心最近的,将其归为同一个簇。
步骤2 将获得的K个蔟,每个蔟重新计算中心点,再重复执行步骤1。
步骤3 不断进行迭代,知道满足一定条件方可终止。
虽然K-means应用非常广泛,然而K-means本身存在的几个缺点需要解决,对此我们做了以下几个研究。
⑴ 在使用K-means进行聚类时首先要确定下来K的值,因为K是该算法的关键部分。本文的研究中,我们将手机用户分为K个分类,分别是无成瘾用户,对社交软件成瘾用户,对游戏成瘾用户,对视频软件成瘾用户。
⑵ K-means算法采用欧几里德距离。
⑶ 对使用者进行建模可以更加准确的进行分类。当用户对一类软件使用时间过长,可以增加该类软件的比重,例如游戏成瘾者会连续使用游戏类游戏1小时,2小时,甚至更久。定义3对该问题做出合理解决使分类可以进一步准确。
⑷ 每个蔟不再发生变化或达到预设的迭代次数时聚类结束。
通过以上研究可以将用户合理的分成K类,根据不同类中用户的不同特点对其进行合理,有效的方法帮助手机成瘾用户。
4 实验结果
我们寻找了60位志愿者来进行实验,其中大学生40人,非大学生20人。要求志愿者照常使用手机软件,记录了该60位志愿者一天的手机软件使用情况。我们可以较为清楚地得出用户一天内各类软件使用时间和使用次数。根据定义2,假设时段T中多种软件都有使用,我们只会记录使用时间最久的软件种类。同时会记录T时刻全部软件的打开次数,因此,数据会出现打开次数大于使用时间,甚至出现使用时间为零、打开次数不为零的数据。
我们通过PCA(主成分分析方法)对数据进行降维,然后使用K-means进行聚类得到如图2所示的分类图。图中加粗的图形为每一簇的中心点。将用户分成四类,分别是无成瘾,游戏类成瘾,社交类成瘾和视频类成瘾。
对不同用户进行分类,根据各自特点和喜好进行针对性研究,例如,游戏爱好者对手机的要求很高,可以相应的在某个时间段内降级手机的主频,对游戏产生较差的体验,从而降低游戏爱好者对游戏的依赖。对社交软件使用量过大的用户,采用不及时的推送方案,集中推送等措施。
5 结束语
能够帮助人们对手机的过度依赖是本文研究的主要出發点。对这方面的研究,大多数研究者停留在对成瘾原因的分析,尚未采取有效措施来解决成瘾的问题。虽然有不少软件采取禁止使用来达到目的,但此类软件的主动权在用户手中。我们结合数据挖掘领域对该问题进行研究。实验证明,我们的研究做到了根据软件的使用情况对用户分成四类,数据的收集工作可以通过操作系统、软件等多种途径。对不同分类用户采取不同推送内容,以转移其注意力,减少游戏类、社交类等消息推送,提醒使用者已经处于成瘾阶段,适度减少手机性能,影响用户体验,这些实际措施能够帮助到手机成瘾用户。
参考文献(References):
[1] 韩登亮,齐志斐.大学生手机成瘾症的心理学探析[J].当代青年研究,2005.12:34-38
[2] 王小运,伍安春.大学生手机成瘾行为的成因及其对策[J].重庆邮电大学学报(社会科学版),2012.24(1):40-43,63
[3] T. Rapeepisarn, S. Tatiyanupanwong, B. Kornvisitvatin and S. Tangsripairoj, "iRelief: An Android application for smartphone syndrome prevention and treatment,"2016 Fifth ICT International Student Project Conference (ICT-ISPC), Nakhon Pathom,2016:121-124
[4] W. Jun, "An Analysis Study on Correlation of Internet Addiction and Smartphone Addiction of Teenagers," 2015 2nd International Conference on Information Science and Security (ICISS), Seoul,2015:1-3
[5] https://itunes.apple.com.
[6] 贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007.1:10-13
[7] 金建国.聚类方法综述[J].计算机科学,2014.41(S2):288-293
[8] 周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011.21(2):62-65
[9] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008.1:48-61