论文部分内容阅读
随着互联网技术的快速发展,由用户主导生成内容的Web2.0时代逐步发展成熟,近几年移动互联网技术的发展更是给人们的生活带来巨大变革。用户生成内容(UGC)作为Web 2.0环境下一种新的内容生成及组织形式,受到大家的广泛关注。目前视频分享网站、微博、博客、问答社区是比较主流的移动互联网UGC业务形式。移动互联网为UGC的发展注入了新的动力,近几年用户生成内容的数量快速增加,然而也暴露出越来越多的质量问题,其整体质量还有待改善。选择科学的评价方法对UGC质量做出评价,才能使以UGC业务为主的网络平台的环境得到改善,在用户生成内容质量评价的基础上制定合理的激励措施有利于让用户生成更多优质内容。本文选取移动互联网视频UGC为研究对象,通过挖掘视频相关的指标数据,使用分类算法对其质量做出评价。在以往研究和视频UGC本身特点的基础上,构建了包含对象层、维度层、测度层的质量评价框架。对象层包括视频制作水平、视频内容本身、视频观看体验、视频内容效用四个维度,确保对视频内容做出全面、准确的评价。本研究在维度层指标的基础上还设计了维度层量化指标,根据维度层量化指标对视频进行人工打分,使用主成分分析方法确定指标权重,人工打分和指标权重共同得到了基于主成分分析的视频UGC质量,然后对视频质量做出高、低质量分类。本文还构建了视频UGC内容、用户交互关系模型,测度层指标均取自该模型。基于主成分分析的视频质量分类结果和测度层指标共同构成了基于分类算法的视频质量评价模型,本文将应用于该模型的样本数据分为训练样本集和测试样本集,使用训练样本集对模型进行训练,然后使用训练后的模型对测试样本集进行质量分类预测,结果表明该模型具有很强的可操作性和科学性。本文选取优酷APP自频道的用户生成视频内容进行实证分析,首先抓取了 892条视频的测度层指标数据,然后通过问卷调查及主成分分析的方法得到这些视频的质量分类情况。测度层指标数据和基于主成分分析的视频质量分类结果共同构成了样本数据,对样本数据进行样本平衡处理后,将样本数据分为训练样本集和测试样本集。以测试样本集为例,基于C5.0分类算法的质量评价模型对视频质量的分类预测准确率达到94.62%。最后本文还对四种分类算法的分类预测结果进行了误差对比及收益对比,结果表明C5.0算法的预测准确率及预测收益均为最好。