论文部分内容阅读
近年来,“众包(Crowdsourcing)”已经成为越来越多的企业所青睐的商业模式。随着移动软件的兴起,人们发现可以把众包模式和基于位置的服务结合在一起,传统的基于位置的服务,一般会通过GPS等技术来进行定位,这些技术精度不是很高,而且无法实现室内定位。不过在众包模式下,定位不再由服务提供商来确定,而是由消费者,也就是每个使用服务的人,自发地告诉服务提供商自己所处的位置以及周围的信息。这样可以带来诸多好处:首先,位置的信息是实时的;其次,用户可以进行室内的定位;最后,在一片区域内,如果有很多用户自发提供周围的地理信息,那么服务器端就可以更精确地进行定位。可以看到,众包在基于位置服务的应用上有很大的优势:高效、低成本且实时性强。不过,这种模式也有自身的缺点:因为涉及的用户很多,导致他们提交的信息质量很难管理。因此,质量控制(Quality Control)被认为是众包模式下的一大挑战。 本课题的主要内容是使用众包模式采集用户所处位置周围的热点信息,通过存储、检索和分析用户提交的海量指纹信息(fingerprint)来确定热点的位置,为未来向用户提供基于位置的服务提供基准。作为被雇佣方,用户的终端一旦连入无线接入点,就可以选择向服务器端发送其有关这个可以作为热点的无线接入点的信息,比如无线接入点的ID和所处位置信息。而在服务器端,会根据所有收到的信息来进行数据的质量分析,包括数据的清洗和聚合,从而得到准确的热点信息,并根据该结果对所有提供信息的用户进行评价,这个评价就代表了用户在这次任务中将会得到的报酬。 本文正是在这样的背景下,提出了一种针对众包模式下基于位置服务的海量数据管理的策略。首先,针对所有用户的输入,需要对这些数据进行清洗和过滤,将错误的数据或者价值很低的数据滤去,其中考虑了用户可能存在欺诈行为以获取更大报偿的情况,比如某个用户在短时间之内频繁地提交相同的数据,由于热点的位置信息在短时间之内是相对固定的,所以频繁提交的重复数据是没有意义的,或者价值很低,需要进行清洗。经过清洗,每一条数据都会被赋予相应的价值,代表其质量和影响因子。 其次,我们对经过过滤的数据进行聚合。首先,数据的真实性应该与数据的提交者有关,所以本文为在这里定义每个用户的诚信度。一个诚实的用户提交的数据当然应该具有更好的可信性;反之,如果一个人一直提交错误的数据,那它的诚信度就会变得很低,从而导致他提交的数据的接受率也会下降。结合历史行为,可以更准确的判断数据的准确性,结合每条数据的价值和数据的接受率,可以得到这条数据的真实质量。根据所得到的质量,我们把所有指纹信息聚合来得到热点的准确位置,这里使用的多数人决策原则(MDA),即有多数人认为这个热点的所在位置。因为使用众包有一个隐含的前提就是,大部分人都是诚实的(他们提交的数据都是相对准确的)。 最后,需要对用户的表现进行正确地评价,因为评价决定他们的报酬,而报酬影响他们下一次任务的表现。在本文中,提出了两种策略,静态阶段性分析和滑动窗口分析。在前一种方法中,我们认为用户的行为是阶段性稳定的,所以每过一段时间,我们把这一阶段的表现拿出来进行一次评价。而在后一种方法中,我们会把用户的历史表现也考虑在内,并且结合之前的一段时间的表现综合考虑,这种方式更加灵活而且能及时反映用户最新的行为,不过时间消耗过大。 为了验证本文提出的策略的有效性,本课题模拟了真实的众包模式的数据。这些数据具有众包模式的特点。实验证明,本文提出的策略可以有效地对众包模式下的数据进行管理,尤其是质量控制方面 值得一提的是,本课题提出的策略并不仅限于基于位置的服务方面,因为这种策略跟系统的场景无关,也不受限于用户提交的数据格式,即语义无关的,我们关注的是单个用户的行为在整个群体中的影响,所以,它可以被用作与各种场合,比如用于检测电子商务网站的评论的真实性。