论文部分内容阅读
Web2.0的到来促进了户成内容的繁荣发展,在促进知识传播与解决信息不对等的同时,同时也产了户恶意破坏他编辑的内容、伪造虚假评论、不尊重版权上传他成果等问题。这些问题的产使得对户信誉度与户成内容质量的评估成为必须。本先阐述了数据的获取、预处理与特征的抽取。我们以英维基百科作为知识分享类站的代表进研究,下载了英维基百科的数据,针对维基百科的章与作者的特点,我们抽取了量特征。我们随机抽取了3个类作为三个数据集,以数据集下的章与章的作者作为研究对象,并对章质量与作者的信誉度进标注,得到标准数据集。我们以亚马逊评论作为商务评论站的代表进研究,下载了亚马逊的评论数据,并随机的选取电产品下的评论与评论者作为研究对象,先对数据集进预处理解决数据稀疏性问题,针对亚马逊评论和评论者的特点,抽取了量特征,并通过标注对评论与评论者进标注,得到标准数据集。在维基百科中,我们提出了双翼因图模型,该模型利我们所抽取的特征集,将作者的信誉度与章质量的估测结合在统的模型中解决。我们通过L-BFGS算法对模型进学习,从获得各个因的权重,并在测试集上对章质量与作者的信誉度进估测以验证模型的正确性,我们选取了个模型作为基准法与我们的法进较,实验显我们的法在准确率和综合评价指标F1上都有较提。在亚马逊评论中,我们提出了评论因图模型,来检测评论中的虚假评论者与虚假评论,该模型将检测虚假评论者和虚假评论结合在统的模型中解决。我们通过L-BFGS算法对模型进学习,获得各个因的权重,并在测试集中检测虚假评论与虚假评论者以验证模型的正确性,我们还选取了个模型作为基准法与我们的法进较,我们的法在准确率和F1上都有较提。章最后总结了本主要作,并提出今后研究向的重点。