论文部分内容阅读
众包是一种分布式的问题解决方式。问题发布者利用网络将相关工作分解并以公开的方式传播给众包参与者,将众包参与者的空闲生产力利用起来,极大地提高了解决问题的效率。 在众包技术研究领域中,众包的性能研究是一个很重要的命题,其中,众包数据的真值发现是一个关键的技术,传统的真值发现技术主要是用于处理分类数据甚至是二元数据,本文提出了一个真值发现模型用于处理数量估计型众包数据,该模型综合考虑了任务难度、参与者能力和欺骗者属性对估计数据的影响。 本文的主要研究工作如下: 1)研究已有的众包数据采集途径,在比较了已有采集途径的特点后,本文提出了一种基于社交网络问卷形式的数据采集方式,该方法具有扩散能力强、成本低和数据回收便捷的特点。对数量估计型众包数据的数据特征进行了实证研究。 2)提出了一个双隐变量的众包数据真值发现模型,将任务的难度和参与者的欺骗程度当作隐变量,使用高斯混合模型来描述参与者的估计值,并使用期望最大化算法来求解模型参数。 3)设计相关实验,并将本文提出的双隐变量众包数据真值发现模型与已有的若干真值发现算法进行比较,使用均方根误差和运行时间作为评价标准,证明了本文提出模型的优越性。