基于TF—IDF改进算法和喜好度的视频用户分类

来源 :软件 | 被引量 : 0次 | 上传用户:wjsj123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:根据用户观看的视频时长与视频的实际时长信息来计算用户对该视频的喜好度,在spark内存计算框架下,以喜好度作为特征项,使用朴素贝叶斯,TF-IDF和改进了的TFC-IDFC分类算法,对视频用户属性进行分析,建立用户年龄区间的分类模型。此分类模型适合视频网站运营商将信息准确的推荐给用户,同时可提高信息的利用率。考虑到传统的TF-IDF算法没有体现特征项在类内和类间的分布特点,提出了改进的TFC-IDFC算法,通过正确率和F1值两个指标对以上三种分类算法的评价,证明了加权的分类算法比不加权的算法分类效果更好,改进的TFC-IDFC算法比传统的TF-IDF算法效果更优。
  关键词:TF-IDF;喜好度;spark;视频;用户分类
  0引言
  在现今的日常生活中,网络视频已成为人们学习、娱乐、交流的主要途径。然而用户在享受丰富视频资源的同时,视频查找过程却消耗了越来越多的时间和精力。如何充分利用用户在视频网站浏览行为以及视频观看行为信息进行分析,建立用户标签,将用户想要的信息准确的推荐给用户,实现精准运营,已成为近年数据分析领域的热门研究之一。
  由于视频与文字、图片、语音相比数据量大,分析过程复杂,目前基于用户分析大部分都集中在对微博、手机上网日志,社交网络等领域的研究,很少对视频网站数据进行分析。冯婷婷通过用户浏览视频的行为,利用支持向量机等分类器进行性别推理;张慷通过大数据平台对DPI上网日志和用户信息进行深度分析,形成手机用户画像;张岩峰等人通过用户在微博上的言行等信息,提出了对用户的个性化维度进行分类分析的方法;王雯等人通过关联规则挖掘的方式对原短文本进行特征补充,提出了一种spark平台上对短文本特征扩展及分类方法;Francisco等人从用户关系网络信息中学习用户特征,使用PageRank等方法进行分类;Fernandes等人以Twitter为例,用SVM算法对真实用户和虚假用户进行分类检测。
  Spark作为一种基于内存计算的分布式计算框架,在计算性能上比Hadoop要快的多,适合于迭代算法和交互式数据分析,能提升大数据处理的实时性和准确性,应用在机器学习、数据挖掘等领域;TF-IDF算法简单快速,结果比较符合实际情况,但传统的TF-IDF并没有考虑特征项与类之間的关联。所以,本文通过用户行为分析计算出喜好度作为特征值,利用Spark框架与改进的TF-IDF算法训练用户年龄区间的分类模型,计算出每个特征项的权重优化模型,提高分类结果。
其他文献
美国东部地区最具影响力的华人电视媒体“美国中文电视”1月8日在纽约举行成立20周年庆典,并向4位杰出华裔颁发了“20年风云人物奖”,他们分别是:纽约首位华裔主计长刘醇逸、国
新一轮课程改革对新时期教育面临的新问题提出了新的要求,要加强对学生核心素养的培养,注重学生综合素质的高标准性,根据学生的发展现状、发展诉求所需要的核心素养。目前,随
朱镕基同志在视察北京国家会计学院时,要求所有会计人员必须以诚信为本,以操守为重,遵循准则,不做假账,保证会计信息真实可靠.他强调,国家会计学院要把诚信教育放在首位,培养
期刊
一、内部控制制度建设薄弱的主要表现1.表现在机构设置和人员配备上.在一些企业中,长宫意志举足轻重,特别是不相容职务并未真正分离,分工也不够明确;有的企业在经济活动中,在
近年来, 用LB技术组装有机-多酸超分子光、电和磁功能杂化材料进展迅速, 已引起研究者的广泛兴趣与关注[1~4]. Clemente-Leon等[5]首次用Keggin结构钨系杂多酸(XW12On-40, X=H
期末考试结束了,爷爷家的杨梅也熟了.我把书包腾空,牵着爷爷的手,蹦蹦跳跳地向乡下进军.一路上,我叽叽喳喳,像一只快乐的小鸟.
期刊
小时候爱是父母为你撑起的大伞长大了爱是回到温馨的家中老了爱是一把摇椅
障碍物的检测有着重要的应用,然而一般的检测方法容易受到环境因素的影响使得检测的效果不是特别理想,因此研究改进障碍物检测的方法有着重要的意义。本文从计算机视觉的角度
名字它只是一个名字,和我们一样布谷,鹞鹰,消散就不再见面而我们,多次在桥上相遇……