众包模式下面向基于位置服务的海量数据管理

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:qq345071009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,“众包(Crowdsourcing)”已经成为越来越多的企业所青睐的商业模式。随着移动软件的兴起,人们发现可以把众包模式和基于位置的服务结合在一起,传统的基于位置的服务,一般会通过GPS等技术来进行定位,这些技术精度不是很高,而且无法实现室内定位。不过在众包模式下,定位不再由服务提供商来确定,而是由消费者,也就是每个使用服务的人,自发地告诉服务提供商自己所处的位置以及周围的信息。这样可以带来诸多好处:首先,位置的信息是实时的;其次,用户可以进行室内的定位;最后,在一片区域内,如果有很多用户自发提供周围的地理信息,那么服务器端就可以更精确地进行定位。可以看到,众包在基于位置服务的应用上有很大的优势:高效、低成本且实时性强。不过,这种模式也有自身的缺点:因为涉及的用户很多,导致他们提交的信息质量很难管理。因此,质量控制(Quality Control)被认为是众包模式下的一大挑战。  本课题的主要内容是使用众包模式采集用户所处位置周围的热点信息,通过存储、检索和分析用户提交的海量指纹信息(fingerprint)来确定热点的位置,为未来向用户提供基于位置的服务提供基准。作为被雇佣方,用户的终端一旦连入无线接入点,就可以选择向服务器端发送其有关这个可以作为热点的无线接入点的信息,比如无线接入点的ID和所处位置信息。而在服务器端,会根据所有收到的信息来进行数据的质量分析,包括数据的清洗和聚合,从而得到准确的热点信息,并根据该结果对所有提供信息的用户进行评价,这个评价就代表了用户在这次任务中将会得到的报酬。  本文正是在这样的背景下,提出了一种针对众包模式下基于位置服务的海量数据管理的策略。首先,针对所有用户的输入,需要对这些数据进行清洗和过滤,将错误的数据或者价值很低的数据滤去,其中考虑了用户可能存在欺诈行为以获取更大报偿的情况,比如某个用户在短时间之内频繁地提交相同的数据,由于热点的位置信息在短时间之内是相对固定的,所以频繁提交的重复数据是没有意义的,或者价值很低,需要进行清洗。经过清洗,每一条数据都会被赋予相应的价值,代表其质量和影响因子。  其次,我们对经过过滤的数据进行聚合。首先,数据的真实性应该与数据的提交者有关,所以本文为在这里定义每个用户的诚信度。一个诚实的用户提交的数据当然应该具有更好的可信性;反之,如果一个人一直提交错误的数据,那它的诚信度就会变得很低,从而导致他提交的数据的接受率也会下降。结合历史行为,可以更准确的判断数据的准确性,结合每条数据的价值和数据的接受率,可以得到这条数据的真实质量。根据所得到的质量,我们把所有指纹信息聚合来得到热点的准确位置,这里使用的多数人决策原则(MDA),即有多数人认为这个热点的所在位置。因为使用众包有一个隐含的前提就是,大部分人都是诚实的(他们提交的数据都是相对准确的)。  最后,需要对用户的表现进行正确地评价,因为评价决定他们的报酬,而报酬影响他们下一次任务的表现。在本文中,提出了两种策略,静态阶段性分析和滑动窗口分析。在前一种方法中,我们认为用户的行为是阶段性稳定的,所以每过一段时间,我们把这一阶段的表现拿出来进行一次评价。而在后一种方法中,我们会把用户的历史表现也考虑在内,并且结合之前的一段时间的表现综合考虑,这种方式更加灵活而且能及时反映用户最新的行为,不过时间消耗过大。  为了验证本文提出的策略的有效性,本课题模拟了真实的众包模式的数据。这些数据具有众包模式的特点。实验证明,本文提出的策略可以有效地对众包模式下的数据进行管理,尤其是质量控制方面  值得一提的是,本课题提出的策略并不仅限于基于位置的服务方面,因为这种策略跟系统的场景无关,也不受限于用户提交的数据格式,即语义无关的,我们关注的是单个用户的行为在整个群体中的影响,所以,它可以被用作与各种场合,比如用于检测电子商务网站的评论的真实性。
其他文献
本文研究并且实现了基于细节层次法的人群动画系统。这个系统将人体动画技术,细节层次法以及人群模拟技术结合起来,形成一个能够实时地模拟人群漫游和疏散的人群动画系统。
随着计算机和通讯技术的发展和进步,人类社会进入了信息社会。Web网页是网络信息传播的主要途径之一,随着网络技术的发展,web网页信息不断丰富,极大地提高了人们的生活质量,但是,we
为适应社会主义市场经济发展及国家煤炭管理部门机构改革的形势,进一步发挥社团等中介组织在煤炭行业管理中的作用,根据国务院机构改革精神,结合煤炭行业在京社团组织的实际
随着网络和通信技术的发展,近距离、低速、低成本的无线技术吸引了众人的目光。ZigBee作为一种新兴的短距离无线通信技术,具有简单易用、近距离、低速率、低功耗且成本低廉等特
电系统、片上系统、无线通信和低功耗嵌入式技术的飞速发展,孕育出无线传感器网络。其低功耗、低成本、分布式和自组织的特点带来了信息感知的一场变革,成就其成为21世纪的新
组合优化问题广泛出现在计算机科学以及其它学科的许多领域当中,例如图论中的图着色问题,生物信息学中的蛋白质结构预测问题,计算机科学中的布尔可满足性问题等。同时,工业生产中
本文叙述了WebServices技术、WebServices与应用集成,还对软件孵化器应用集成模式进行了阐述。 本文对SLA相关概念、在服务中引入SLA的意义进行了说明,还对在软件孵化器
为纪念中国共产党成立87周年,不断提高《军队党的生活》办刊质量,我刊将开展“军队党建摄影作品有奖征集”活动。现将征稿的有关事宜通告如下:图片要求作品以军队党的建设为
本文利用理论推导和数值模拟相结合的方法研究了混沌控制理论及混沌应用中的相关问题,取得了如下成果: 利用受控Chen系统,基于镜像操作的方法,发现Chen吸引子是由左、右两
随着Internet/Intranet和Web技术的发展,以Web为中心的计算方式已经逐渐成为主流,企业特别是软件企业应用Web化结构的平台实现全球化合作的工作方式已是大势所趋。在此背景下,许