论文部分内容阅读
随着移动互联网时代的到来,内容创新和资源聚合越来越丰富,同时数据量和数据内容也越来越多样。在国内,各大视频网站巨头每日承载用户的上传播放需求已呈几何级别增长,同时也使得视频网站的管控变得愈发困难。如何在庞大的用户量的基础上,遵从国家的相关法律法规,且不打击用户积极性的前提下,有效地管控视频内容,营造更良好的网络环境,是视频网站一直以来最重要的问题。近年来,视频网站的数据数量增长十分迅速。在数据量庞大的趋势下,人工方法和传统的模型已无法解决当前的诸多问题。人工方法准确率高但耗时巨大;传统模型擅于解决数据量维数不高的问题,但在海量数据高维度下性能不好。本文基于某视频网站的数据,利用数据挖掘的相关技术建立模型,尝试建立一个自动判别低俗视频的数学模型。本论文的目的是建立一个海量数据下可以快速响应,同时判别准确率达到较高的模型。达到时间和准确率的权衡。本文将数据挖掘中分类算法应用到文本场景中,首先引入分词、停止词过滤等手段,对文本数据(视频标题,标签)进行切分和过滤;然后分别采用布尔模型,概率模型,向量空间模型等文档表示模型来表示文本,将文字等非结构化数据转化成为可建模可计算的结构化数据;接下来,本文尝试了使用朴素贝叶斯方法处理概率模型以及使用逻辑回归来处理向量空间模型的数据,得到了准确率较高的模型。在此基础上,为了让模型在海量数据下达到快速响应的目的,本文依次使用了改进的卡方检验法和基于随机森林的机器学习特征选择方法。结果表明,经历特征选择后的文本可以有效地去除噪声,而且可以大大提高分类模型的响应速度。