论文部分内容阅读
维基百科是一种基于Wiki技术的,用不同语言写成的网络百科全书。随着Web2.0技术的快速发展,维基百科所收录的文章数量和参与编辑的作者数量日益增多。事实证明其中大部分的信息都是可信的,为广大互联网用户提供了方便的内容服务,并作为科研和工业研发中的知识库所广泛使用。然而由快速发展而引起的信息和数据膨胀正在引起业界的重视,同时,维基百科的数据量也呈现着爆发式的增长。在这种情况下如何保证其提供内容的质量、准确性和可信度将成为一个亟待解决的问题。本文从这个角度出发,对维基百科中争议性的条目和非正常编辑行为进行了挖掘,给出了有效的解决方案。在争议性条目挖掘的方面,维基百科的一些文章的用户对同一条目可能持有不同的见解,从而产生对该条目意见上的分歧。发现此类争议性并将其解决无疑将保证维基百科的内容质量,避免因任何用户的偏激行为,促使信息的不准确。我们选取了维基百科的编辑历史作为研究对象,针对编辑历史中所提供的信息,提取与争议度有关的元数据。这种形式相较于传统的针对文本自身的挖掘形式更具效率和可操作性。在对争议度进行评分时,除了从文章自身角度分析之外,我们引入与用户角色结合的方式计算文章的争议度得分。并给出对应的排序模型来研究这类用户的有效性。在爬取得到的维基百科数据集上对本文的方法进行了实验,结果与其他基准模型相比有所提升,从而验证了基于用户特性的排序模型的有效性。在恶意行为发掘的方面,最初的人工发现模式有着效率低,耗费资源等缺点,为了提高维基百科的内容质量,保证用户的体验,基于机器学习的反恶意修改方法开始被应用于这个领域。然而,这其中的大部分方法均从引入更多类型的特征出发,不断挖掘的新特征使得特征集合不断膨胀,从而增加了运算的复杂度降低了效率。因此,如何在最大程度上利用现有的特征,并充分的挖掘其可用性和有效性就是本文要解决的问题。在本文中,我们引入了特征变换技术来分析现有的特征,并提出了一种基于特征变换来整合已有特征从而实现恶意行为挖掘的方法。在公开数据集PAN-WVC-10上的实验结果证明了本文所提出的方法的有效性。