论文部分内容阅读
摘要:根据用户观看的视频时长与视频的实际时长信息来计算用户对该视频的喜好度,在spark内存计算框架下,以喜好度作为特征项,使用朴素贝叶斯,TF-IDF和改进了的TFC-IDFC分类算法,对视频用户属性进行分析,建立用户年龄区间的分类模型。此分类模型适合视频网站运营商将信息准确的推荐给用户,同时可提高信息的利用率。考虑到传统的TF-IDF算法没有体现特征项在类内和类间的分布特点,提出了改进的TFC-IDFC算法,通过正确率和F1值两个指标对以上三种分类算法的评价,证明了加权的分类算法比不加权的算法分类效果更好,改进的TFC-IDFC算法比传统的TF-IDF算法效果更优。
关键词:TF-IDF;喜好度;spark;视频;用户分类
0引言
在现今的日常生活中,网络视频已成为人们学习、娱乐、交流的主要途径。然而用户在享受丰富视频资源的同时,视频查找过程却消耗了越来越多的时间和精力。如何充分利用用户在视频网站浏览行为以及视频观看行为信息进行分析,建立用户标签,将用户想要的信息准确的推荐给用户,实现精准运营,已成为近年数据分析领域的热门研究之一。
由于视频与文字、图片、语音相比数据量大,分析过程复杂,目前基于用户分析大部分都集中在对微博、手机上网日志,社交网络等领域的研究,很少对视频网站数据进行分析。冯婷婷通过用户浏览视频的行为,利用支持向量机等分类器进行性别推理;张慷通过大数据平台对DPI上网日志和用户信息进行深度分析,形成手机用户画像;张岩峰等人通过用户在微博上的言行等信息,提出了对用户的个性化维度进行分类分析的方法;王雯等人通过关联规则挖掘的方式对原短文本进行特征补充,提出了一种spark平台上对短文本特征扩展及分类方法;Francisco等人从用户关系网络信息中学习用户特征,使用PageRank等方法进行分类;Fernandes等人以Twitter为例,用SVM算法对真实用户和虚假用户进行分类检测。
Spark作为一种基于内存计算的分布式计算框架,在计算性能上比Hadoop要快的多,适合于迭代算法和交互式数据分析,能提升大数据处理的实时性和准确性,应用在机器学习、数据挖掘等领域;TF-IDF算法简单快速,结果比较符合实际情况,但传统的TF-IDF并没有考虑特征项与类之間的关联。所以,本文通过用户行为分析计算出喜好度作为特征值,利用Spark框架与改进的TF-IDF算法训练用户年龄区间的分类模型,计算出每个特征项的权重优化模型,提高分类结果。
关键词:TF-IDF;喜好度;spark;视频;用户分类
0引言
在现今的日常生活中,网络视频已成为人们学习、娱乐、交流的主要途径。然而用户在享受丰富视频资源的同时,视频查找过程却消耗了越来越多的时间和精力。如何充分利用用户在视频网站浏览行为以及视频观看行为信息进行分析,建立用户标签,将用户想要的信息准确的推荐给用户,实现精准运营,已成为近年数据分析领域的热门研究之一。
由于视频与文字、图片、语音相比数据量大,分析过程复杂,目前基于用户分析大部分都集中在对微博、手机上网日志,社交网络等领域的研究,很少对视频网站数据进行分析。冯婷婷通过用户浏览视频的行为,利用支持向量机等分类器进行性别推理;张慷通过大数据平台对DPI上网日志和用户信息进行深度分析,形成手机用户画像;张岩峰等人通过用户在微博上的言行等信息,提出了对用户的个性化维度进行分类分析的方法;王雯等人通过关联规则挖掘的方式对原短文本进行特征补充,提出了一种spark平台上对短文本特征扩展及分类方法;Francisco等人从用户关系网络信息中学习用户特征,使用PageRank等方法进行分类;Fernandes等人以Twitter为例,用SVM算法对真实用户和虚假用户进行分类检测。
Spark作为一种基于内存计算的分布式计算框架,在计算性能上比Hadoop要快的多,适合于迭代算法和交互式数据分析,能提升大数据处理的实时性和准确性,应用在机器学习、数据挖掘等领域;TF-IDF算法简单快速,结果比较符合实际情况,但传统的TF-IDF并没有考虑特征项与类之間的关联。所以,本文通过用户行为分析计算出喜好度作为特征值,利用Spark框架与改进的TF-IDF算法训练用户年龄区间的分类模型,计算出每个特征项的权重优化模型,提高分类结果。