论文部分内容阅读
UGC伴随着以提倡个性化为主要特点的Web2.0概念兴起,UGC的应用不仅催生了一系列新业务如社区网络、视频分享、文档共享、博客、微博客和播客等,而且还创造了新的赢利模式,并形成了一个新的业务收入市场。但是UGC的质量参差不齐,这对消费者和UGC平台都是一个重大问题。通过合理的评价机制,对UGC进行客观的评价,引导高质量内容被用户吸收,对更高层次的满足用户需求有着重要的作用,对UGC的良性发展有着重要意义。论文在前期学者研究基础上,建立了UGC质量三层评价框架,将评价模型分拆为对象层、维度层、测度层,保证UGC不同业务形式都可以通过模型评价,保证UGC对不同方式采集的数据均可兼容。对象层明确UGC的内容形式和应用背景,内容形式包含文字/文档、图片、视频/音频、程序共四大类;应用背景分为“拉动式UGC”和“推动式UGC”两大类。维度层则依据信息质量定义将信息质量评价指标分为信息形式质量、信息内容质量、信息效用质量,并分别建立每个类别细化维度及量化问题。为解决大规模UGC每项指标难以取数的困难,测度层从评价的有效性和可行性角度设置了具体的测度指标和评价模型:依据用户和内容的交互关系,依托自动监测方法、同行评议方法、用户评价方法,分别列举出测度层指标包含内容本身指标、用户交互指标、网页统计指标,并分析指标均取自UGC用户交互关系模型,和维度层指标存在映射关系;测度层指标和分类算法共同组成了UGC质量交互评价模型。UGC质量交互评价模型具有很强的操作性和科学性。以推动式文字类UGC的典型平台百度文库为实证范围,对百度文库中UGC进行实证评价分析,首先专家通过层次分析法将维度层指标进行量化,并针对测试内容的质量依据量化维度指标进行打分。后将专家评估结果作为决策属性,和其他搜集到的条件属性一并进行分类挖掘,实现内容分类评价。并将UGC质量交互评价模型的评价结果和专家评价结果比较,实验结果表明分类挖掘准确率达到95%以上。本研究通过抓取率和ROC曲线等方式对模型中不同方法进行比较,认为支持向量机为UGC质量交互评价模型的最优算法,其他算法优劣顺序为决策树、神经网络、贝叶斯网络。评价研究结论显示不同类别内容平均质量差异显著,用户评价得分和UGC质量强相关。