论文部分内容阅读
随着文化产业的快速发展和社交网络的兴起,在线评论逐渐成为消费者选择的重要评价指标,而水军的虚假评论行为,会误导用户消费,扰乱文化行业正常发展,阻碍文化产业质量提升。现有识别模型方法主要针对物质商品水军识别,在解决文化产品网络水军识别上主要有两点不足之处:1.现有网络水军识别特征模型对于文化产品网络水军存在表达能力弱的问题,单一分类器进行网络水军识别精度不高;2.网络水军的庞大规模及其动态行为使网络水军识别存在时效问题。针对这些问题,本文分别提出了面向文化产品的多视角网络水军识别方法和基于多关系融合算法的文化产品水军网络搜索方法,两种方法分别提高了文化产品网络水军识别的准确率与时间效率。针对现有网络水军特征模型对文化产品网络水军识别不足的问题,本文建立了具有代表性的文化产品网络水军特征表达模型。通过对文化产品具有丰富的语义性、严格的时效性以及网络交互性等3个特点进行分析,从内容、行为、属性三个视角提出了评论主题相似度、平均有用度、行为关联性、兴趣关联性、平均评价积极度和综合质量评价等新特征,将新特征与已有网络水军识别特征结合,利用特征选择方法去除冗余特征形成新的表达模型。针对单一分类器进行网络水军识别精度不高的问题,在多视角基础上运用XGBoost(eXtreme Gradient Boosting)集成学习算法进行水军识别。实验验证提出的特征表达模型具有很好的区分度,基于多视角的XGBoost集成学习算法对于文化产品网络水军识别具有较高的准确率。为了解决海量且实时增加的用户数据与动态变化的网络水军行为对全网水军识别时间效率提出的挑战,提出了针对文化产品水军网络的搜索算法。本文借鉴社交网络中的强弱关系,根据用户之间的强弱关系提出了一种融合关注关系、转发关系和同一评论对象的文化产品水军网络搜索算法,从水军个体挖掘出其所属水军团体,通过对比实验验证本文方法可以极大地提高对大规模数据集进行文化产品网络水军搜索的时间效率。