基于双隐变量的众包数据真值发现模型研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:luck88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众包是一种分布式的问题解决方式。问题发布者利用网络将相关工作分解并以公开的方式传播给众包参与者,将众包参与者的空闲生产力利用起来,极大地提高了解决问题的效率。  在众包技术研究领域中,众包的性能研究是一个很重要的命题,其中,众包数据的真值发现是一个关键的技术,传统的真值发现技术主要是用于处理分类数据甚至是二元数据,本文提出了一个真值发现模型用于处理数量估计型众包数据,该模型综合考虑了任务难度、参与者能力和欺骗者属性对估计数据的影响。  本文的主要研究工作如下:  1)研究已有的众包数据采集途径,在比较了已有采集途径的特点后,本文提出了一种基于社交网络问卷形式的数据采集方式,该方法具有扩散能力强、成本低和数据回收便捷的特点。对数量估计型众包数据的数据特征进行了实证研究。  2)提出了一个双隐变量的众包数据真值发现模型,将任务的难度和参与者的欺骗程度当作隐变量,使用高斯混合模型来描述参与者的估计值,并使用期望最大化算法来求解模型参数。  3)设计相关实验,并将本文提出的双隐变量众包数据真值发现模型与已有的若干真值发现算法进行比较,使用均方根误差和运行时间作为评价标准,证明了本文提出模型的优越性。
其他文献
在社会各行业领域对实时虚拟环境系统的需求不断增加的同时,人们也希望虚拟环境能提供更强烈的真实感体验。天空环境景观的渲染是室外自然光照环境的仿真模拟的一个重要方面
近年来,互联网上信息量呈现爆炸式增长,有价值信息出现的同时无用的冗余信息也变得越来越多。为了应对海量信息的严重挑战,帮助人们从中找到真正有价值的信息,需要一些自动化文本
随着3D立体频道的开通,世界范围内的各个3D频道普遍存在节目制作周期长、更新慢、节目源匮乏的问题。此外,在立体影视节目制作时,也不可避免地需要利用一些原有影视节目镜头作为
伴随着通信技术和网络技术的高速发展,互联网内容不断丰富,逐渐形成了一个前所未有的超大型信息数据库,不仅如此,在互联网发展浪潮下日常OA系统中信息量也出现了爆炸式增长,用户查
随着计算机科学技术的飞速发展,软件的功能越来越强大,人们对软件质量和可靠性的要求也越来越高。软件测试是软件开发过程中的不可缺少的部分,为软件质量和可靠性提供保障。
伴随着计算机技术和通信技术的飞速发展,呼叫中心技术逐渐发展并成熟起来。与此同时,企业之间的竞争逐渐演变为服务质量的竞争,各大小公司都致力于营造顾客满意的服务质量,以进一
在分析实际问题的过程中,我们可能会对不同情况建立不同的模型。考虑一组数据应该用哪个模型来分析,这就是模型选择问题。本文主要讨论基于贝叶斯方法的模型选择及参数估计,这里
随着信息化进程的不断深入和互联网技术的迅速发展,网络安全问题逐渐成为人们关注的焦点。在众多的网络入侵行为和攻击中,软件漏洞问题成为了人们的噩梦,并造成了众多的安全性事
随着嵌入式技术、计算机技术和无线通信技术的发展,推动了无线传感器网络的进一步发展。无线传感器网络是由大量无线传感器节点构成的自组织通信网络。无线传感器网络节点将从
随着工业化进程的加快,空气质量开始不断恶化,并直接威胁到群众的身体健康。然而,要合理控制空气质量的恶化,首先得对空气质量做出科学的评价。本文使用时间序列方法和多元统计方