论文部分内容阅读
针对众包数据处理中的质量控制问题,提出了一种加权K近邻投票分类方法。该方法不单单只是考虑了某个样例的标记来返回一个答案,而是通过综合考虑样例的近邻来得到更加准确的答案。同时对样例的近邻加以适当的权重来进一步提高算法的性能,并保持了传统多数投票分类的简单性。K近邻投票分类算法可以有效地解决缺乏标记的情况,通过对近邻加以权重可以解决不平衡标记造成的影响,从而使算法的泛化性更强。通过各种场景下的实验,结果表明加权K近邻投票分类方法取得了很好的效果。