论文部分内容阅读
摘 要:信息技术与数字技术的高速发展与持续深入研究,使其影响范围与应用范围不断扩大。目前,在经济稳步发展的基础上,我国各市场行业发展态势良好,同时也对互联网方面的应用提出更高要求。文章首先对移动互联网用户的行为特征展开多方位描述;其次,阐明当前移动用户在互联网中行为特征的分析内容与方法;最后根据上述内容提出有效分析用户行为特征的方案,为用户行为研究提供理论支持。
关键词:用户行为;数字化技术;数据分析;聚类算法
0 引言
数字化时代加快推进社会各界对于信息的应用与传播。面对海量网络数据信息,部分用户没有掌握高效便捷的信息分析方法,为解决这一问题,应从用户行为分析入手,进一步收集并掌握用户的使用偏好与习惯信息,将获取到的信息进行整合与处理,以此辅助用户提高信息查找效率,减少信息筛选任务量。信息在传递至用户这一过程中,信息的提供者也具有选择权,使其根据用户偏好进行消息推送能够有效降低推送成本,实现用户与提供者之间的互利互惠。
1 互联网用户行为特点
数字时代互联网用户行为特征有以下5点。
第一,用户具有隐蔽性。由于用户以网络为媒介进行信息传递,用户在其隐蔽性的特征下,利用电脑或移动终端即可完成讯息的实时传递与接收,虽然用户在信息传送的过程中享受到一定的便捷性,但加大了用户接收不实内容的负面影响。
第二,互联网用户数值普遍偏高,互联网用户文化水平通常较高。一般情况下,网络用户对于网络知识较为了解,能够熟练开展社交、购物等活动,并具备网络与电子产品升级的意识与能力。
第三,互联网信息交际具有复杂性。不管是网络媒介还是交互对象,都在海量数据与交叉任务的影响下变得复杂、烦琐,这也使用户行为呈现出多变的特征。因此,应制定相应的网络用户行为管理与约束准则。
第四,突破原有时间与空间的限制。数字时代用户通过网络媒介即可与目标用户进行连接,交互范围与效果与之前相比有极大改善。
第五,判断标准具有差异化。在突破时间与空间限制的背景下,用户行为管理相对宽泛,网络中的言行与判断标准存在较大差异,必须通过完善的机制与法律对不符合标准的内容进行限制与规范[1]。
2 互联网用户行为分析内容与方法
2.1 互联网用户行为分析内容
分析用户行为的目的就在于判断用户行为特征,而分析用户行为特征就是开展数据挖掘工作的核心任务。在以分析用户行为特征为目的而展开的信息分类过程中,有必要参照用户的行为表现特征进行分析。分析收集上来的数据信息,对用户特征进行归纳整理,并在用户行为特征的基础上统计其相应的活动规律,以此建立用户行为模型,总结用户行为模式的内容。
2.2 互联网用户行为分析方法
针对用户行为特征的分析,数据挖掘过程可以分为以下几步:第一步,参照互联网企业战略规划的发展方向和现阶段企业的运行特征,将问题反映在商业广告中,选择目标挖掘数据,并进行针对性的营销方案设计,敲定研究内容和方法;第二步,基于收集到的信息,创建符合用户行为特征的模型;第三步,数据挖掘还会通过判断、选择、整理、管理和减少变量等一系列列程序,提供最终所需的信息数据;第四步,结合数据挖掘所得出的内容结果与挖掘目标,判断并选取最佳的算法;第五步,将计算整理的数据导入验证模型,查证用户行为特征模型运行效果的准确性与实效性,利用数据挖掘技术的模型展开深入验证;第六步,如果用户行为特征分析模型没有通过数据挖掘的验证,则需要改进并重新建立一个新的用户行为模型;第七步,用户行为模型的结果将在最终环节以文字或图表的形式进行顯示,完成数据转换;第八步,在数据挖掘模型的实际应用过程中,还需要结合实际情况进行不断调整和优化[2]。
2.3 聚类算法选择
首先,统计资料:本文重点研究移动用户的行为数据,并以此创建移动用户行为模型,以此利用数据挖掘算法对移动终端的用户行为进行初步收集。
其次,聚类方式的选择:以K-means聚类算法为主要应用算法。由于数字化背景下的移动用户行为数据量非常大,需要在分析企业数据时,采用一种聚类方法,该方法可以有效收集计算得出的分类结果,且计算效率较高,能够完成海量数据的处理与分类。
最后,应具备一个判断标准,以明确合理聚类的判断准则,使聚类算法运行到最后。
3 互联网用户行为分析系统的构建方法
3.1 互联网用户行为分析系统的总体架构
移动用户的行为特征分析系统具有高效性、前瞻性以及易维护性,此外,用户行为分析系统还需要开放式架构与外部服务器的移动用户行为分析系统。数据源层主要为用户行为特征分析系统提供数据与管理服务,系统所收集到的原始数据包括多个方面,例如:互联网数据CRM系统、口头信令系统等[3]。
3.2 互联网用户行为分析系统平台搭建
Hadoop是具有良好可伸缩性和高可靠性的分布式系统。Hadoop平台的主要组成部分包括MapReduce、HBase系列数据库、ZooKeeper分布式应用程序协调系统等。针对行为分析系统,必须结合用户访问内容才能判断用户行为并作出最后分类。基于此,公共网络中的海量数据信息成为主要捕获的对象。DNSMASQ可以使DHCP与DNS进行有效融合,且DNS一般情况下具备解析DHCP做分配地址的功能。在DNSmasq工具域名的基础上进行数据缓存,此方法主要用于互联网内容爬取,并在Hadoop节点之间提供自定义域名解析的功能。
3.3 数据分析平台总体架构设计
结合用户实际的应用需求,可以将移动终端的用户行为分析系统划分成以下几个模块:日志下载、任务统计调度、移动用户日志处理、结果统计入库、日志分类等。移动终端的用户可以通过日志分类模块功能对已经完成下载的内容进行分析与知识库匹配,实现对日志的精准分类。 移动用户日志下载模块:移动终端用户日志下载模块的关键性功能是,进入指定文件传输系统的服务器,找到并下载相应话单,对没有打上标签的文档进行统一化处理。此程序需要完成日志文档的筛选与提取,并将用户日志保存至Hadoop中的标准位置。同时,此程序还能将移动终端用户流量使用过程中的信息与基础类数据集进行下载[4]。
任务统计调度模块:此模块的工作调度条件是根据定时设置的脚本,即以脚本为根据进行后续工作,任务统计工作的执行时间是用户上传或下载日志的前一天,并在固定周期内展开扫描任务,将所有读取得出的任务数据展开进一步统计,并结合实际情况判断任务的执行情况是否满足标准。
移动端用户日志处理模块:移动端用户日志处理程序将没有进行处理的话单文件从相应的分布式HDFS文件系统中调取出来,同时利用classify程序接口将当日记录记上标签,发挥haproxy能够同时调节classify程序的功能,快速将相同IP下的数据爬取压力进行科学分担。
结果统计入库模块:此模块的主要工作内容是对前一天的GPRS_LOG日志文件进行梳理与整合。此模块可以基于HDFS平台对label程序展开快速保存,实现文件的高效导入。结果统计入库模块将hive下设的script作为扫描目标,常规运行状态下的单位扫描时间为10 min,完成规律扫描,并将全部程序进行有效读取。
4 结语
综上所述,面对数字时代变化与发展,有必要针对移动互联网用户进行有效、综合分析方案的设计,并以此辅助移动互联网运营商进行相关业务拓展。本文以互联网用户操作特征、行为分析以及数据挖掘算法为出发点,对数据分析中的各个模块进行详细设计,完成互联网用户行为分析系统的构建。
基金项目:2017年度湖南省教育厅科学研究项目;项目编号:17C0323。
作者简介:李志勇(1974— ),男,湖南长沙人,讲师,硕士;研究方向:大数据,移动互联。
Analysis and research of Internet user behavior based on digital era
Li Zhiyong
(Hunan Mass Media Vocational and Technical College, Changsha 410100, China)
Abstract:With the rapid development and continuous in-depth research of information technology and digital technology, the scope of its influence and application is constantly expanding. At present, based on the steady development of the economy, China’s various market industries are developing well, and also put forward higher requirements for the application of the Internet. Firstly, the paper describes the behavior characteristics of mobile Internet users from various aspects. Secondly, it clarifies the content and method of analyzing the behavior characteristics of mobile users in the Internet. Finally, according to the above content, the scheme of effective analysis of user behavior characteristics is put forward to provide theoretical support for user behavior research.
Key words:user behavior; digital technology; data analysis; clustering algorithm
[参考文献]
[1]周学申.大数据技术视域下对用户行为数据的分析与应用思考[J].数字技术与应用,2020(11):44-46.
[2]赵艺哲.社会认知理论视域下社会化媒体的用户参与行为分析[J].新媒体研究,2020(22):39-41.
[3]李江峡,马艳,古海生,等.基于数据驱动的用户用能行为分析方法[J].智慧电力,2020(9):63-68.
[4]李丹.基于大數据挖掘的通信用户行为分析[J].信息与电脑(理论版),2020(15):173-175.
关键词:用户行为;数字化技术;数据分析;聚类算法
0 引言
数字化时代加快推进社会各界对于信息的应用与传播。面对海量网络数据信息,部分用户没有掌握高效便捷的信息分析方法,为解决这一问题,应从用户行为分析入手,进一步收集并掌握用户的使用偏好与习惯信息,将获取到的信息进行整合与处理,以此辅助用户提高信息查找效率,减少信息筛选任务量。信息在传递至用户这一过程中,信息的提供者也具有选择权,使其根据用户偏好进行消息推送能够有效降低推送成本,实现用户与提供者之间的互利互惠。
1 互联网用户行为特点
数字时代互联网用户行为特征有以下5点。
第一,用户具有隐蔽性。由于用户以网络为媒介进行信息传递,用户在其隐蔽性的特征下,利用电脑或移动终端即可完成讯息的实时传递与接收,虽然用户在信息传送的过程中享受到一定的便捷性,但加大了用户接收不实内容的负面影响。
第二,互联网用户数值普遍偏高,互联网用户文化水平通常较高。一般情况下,网络用户对于网络知识较为了解,能够熟练开展社交、购物等活动,并具备网络与电子产品升级的意识与能力。
第三,互联网信息交际具有复杂性。不管是网络媒介还是交互对象,都在海量数据与交叉任务的影响下变得复杂、烦琐,这也使用户行为呈现出多变的特征。因此,应制定相应的网络用户行为管理与约束准则。
第四,突破原有时间与空间的限制。数字时代用户通过网络媒介即可与目标用户进行连接,交互范围与效果与之前相比有极大改善。
第五,判断标准具有差异化。在突破时间与空间限制的背景下,用户行为管理相对宽泛,网络中的言行与判断标准存在较大差异,必须通过完善的机制与法律对不符合标准的内容进行限制与规范[1]。
2 互联网用户行为分析内容与方法
2.1 互联网用户行为分析内容
分析用户行为的目的就在于判断用户行为特征,而分析用户行为特征就是开展数据挖掘工作的核心任务。在以分析用户行为特征为目的而展开的信息分类过程中,有必要参照用户的行为表现特征进行分析。分析收集上来的数据信息,对用户特征进行归纳整理,并在用户行为特征的基础上统计其相应的活动规律,以此建立用户行为模型,总结用户行为模式的内容。
2.2 互联网用户行为分析方法
针对用户行为特征的分析,数据挖掘过程可以分为以下几步:第一步,参照互联网企业战略规划的发展方向和现阶段企业的运行特征,将问题反映在商业广告中,选择目标挖掘数据,并进行针对性的营销方案设计,敲定研究内容和方法;第二步,基于收集到的信息,创建符合用户行为特征的模型;第三步,数据挖掘还会通过判断、选择、整理、管理和减少变量等一系列列程序,提供最终所需的信息数据;第四步,结合数据挖掘所得出的内容结果与挖掘目标,判断并选取最佳的算法;第五步,将计算整理的数据导入验证模型,查证用户行为特征模型运行效果的准确性与实效性,利用数据挖掘技术的模型展开深入验证;第六步,如果用户行为特征分析模型没有通过数据挖掘的验证,则需要改进并重新建立一个新的用户行为模型;第七步,用户行为模型的结果将在最终环节以文字或图表的形式进行顯示,完成数据转换;第八步,在数据挖掘模型的实际应用过程中,还需要结合实际情况进行不断调整和优化[2]。
2.3 聚类算法选择
首先,统计资料:本文重点研究移动用户的行为数据,并以此创建移动用户行为模型,以此利用数据挖掘算法对移动终端的用户行为进行初步收集。
其次,聚类方式的选择:以K-means聚类算法为主要应用算法。由于数字化背景下的移动用户行为数据量非常大,需要在分析企业数据时,采用一种聚类方法,该方法可以有效收集计算得出的分类结果,且计算效率较高,能够完成海量数据的处理与分类。
最后,应具备一个判断标准,以明确合理聚类的判断准则,使聚类算法运行到最后。
3 互联网用户行为分析系统的构建方法
3.1 互联网用户行为分析系统的总体架构
移动用户的行为特征分析系统具有高效性、前瞻性以及易维护性,此外,用户行为分析系统还需要开放式架构与外部服务器的移动用户行为分析系统。数据源层主要为用户行为特征分析系统提供数据与管理服务,系统所收集到的原始数据包括多个方面,例如:互联网数据CRM系统、口头信令系统等[3]。
3.2 互联网用户行为分析系统平台搭建
Hadoop是具有良好可伸缩性和高可靠性的分布式系统。Hadoop平台的主要组成部分包括MapReduce、HBase系列数据库、ZooKeeper分布式应用程序协调系统等。针对行为分析系统,必须结合用户访问内容才能判断用户行为并作出最后分类。基于此,公共网络中的海量数据信息成为主要捕获的对象。DNSMASQ可以使DHCP与DNS进行有效融合,且DNS一般情况下具备解析DHCP做分配地址的功能。在DNSmasq工具域名的基础上进行数据缓存,此方法主要用于互联网内容爬取,并在Hadoop节点之间提供自定义域名解析的功能。
3.3 数据分析平台总体架构设计
结合用户实际的应用需求,可以将移动终端的用户行为分析系统划分成以下几个模块:日志下载、任务统计调度、移动用户日志处理、结果统计入库、日志分类等。移动终端的用户可以通过日志分类模块功能对已经完成下载的内容进行分析与知识库匹配,实现对日志的精准分类。 移动用户日志下载模块:移动终端用户日志下载模块的关键性功能是,进入指定文件传输系统的服务器,找到并下载相应话单,对没有打上标签的文档进行统一化处理。此程序需要完成日志文档的筛选与提取,并将用户日志保存至Hadoop中的标准位置。同时,此程序还能将移动终端用户流量使用过程中的信息与基础类数据集进行下载[4]。
任务统计调度模块:此模块的工作调度条件是根据定时设置的脚本,即以脚本为根据进行后续工作,任务统计工作的执行时间是用户上传或下载日志的前一天,并在固定周期内展开扫描任务,将所有读取得出的任务数据展开进一步统计,并结合实际情况判断任务的执行情况是否满足标准。
移动端用户日志处理模块:移动端用户日志处理程序将没有进行处理的话单文件从相应的分布式HDFS文件系统中调取出来,同时利用classify程序接口将当日记录记上标签,发挥haproxy能够同时调节classify程序的功能,快速将相同IP下的数据爬取压力进行科学分担。
结果统计入库模块:此模块的主要工作内容是对前一天的GPRS_LOG日志文件进行梳理与整合。此模块可以基于HDFS平台对label程序展开快速保存,实现文件的高效导入。结果统计入库模块将hive下设的script作为扫描目标,常规运行状态下的单位扫描时间为10 min,完成规律扫描,并将全部程序进行有效读取。
4 结语
综上所述,面对数字时代变化与发展,有必要针对移动互联网用户进行有效、综合分析方案的设计,并以此辅助移动互联网运营商进行相关业务拓展。本文以互联网用户操作特征、行为分析以及数据挖掘算法为出发点,对数据分析中的各个模块进行详细设计,完成互联网用户行为分析系统的构建。
基金项目:2017年度湖南省教育厅科学研究项目;项目编号:17C0323。
作者简介:李志勇(1974— ),男,湖南长沙人,讲师,硕士;研究方向:大数据,移动互联。
Analysis and research of Internet user behavior based on digital era
Li Zhiyong
(Hunan Mass Media Vocational and Technical College, Changsha 410100, China)
Abstract:With the rapid development and continuous in-depth research of information technology and digital technology, the scope of its influence and application is constantly expanding. At present, based on the steady development of the economy, China’s various market industries are developing well, and also put forward higher requirements for the application of the Internet. Firstly, the paper describes the behavior characteristics of mobile Internet users from various aspects. Secondly, it clarifies the content and method of analyzing the behavior characteristics of mobile users in the Internet. Finally, according to the above content, the scheme of effective analysis of user behavior characteristics is put forward to provide theoretical support for user behavior research.
Key words:user behavior; digital technology; data analysis; clustering algorithm
[参考文献]
[1]周学申.大数据技术视域下对用户行为数据的分析与应用思考[J].数字技术与应用,2020(11):44-46.
[2]赵艺哲.社会认知理论视域下社会化媒体的用户参与行为分析[J].新媒体研究,2020(22):39-41.
[3]李江峡,马艳,古海生,等.基于数据驱动的用户用能行为分析方法[J].智慧电力,2020(9):63-68.
[4]李丹.基于大數据挖掘的通信用户行为分析[J].信息与电脑(理论版),2020(15):173-175.