关于数据密集型的众包清洗平台

来源 :第31届中国数据库学术会议 | 被引量 : 0次 | 上传用户:zjxiaolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网在产生大量数据的同时,也产生了很多的错误,数据清洗因而成为重要而迫切的任务.当前的数据清洗技术存在清洗算法不合理和清洗效率低2方面不足.众包是一种拥有广泛用户基础的完成任务的新模式,具有高效廉价的特点,可以弥补当前清洗技术的不足,但目前还没有专用于数据清洗的众包平台.针对传统数据清洗方法的不足,面对数据密集型发展趋势,借助新型高效的众包平台,提出一种新的基于众包数据清洗模型,经获取清洗任务、生成HIT任务、用户完成任务、回收任务并存储答案、对用户评价5个步骤,在保证清洗准确性的同时高效廉价地完成清洗任务.
其他文献
互联网广告收入是互联网企业及周边产业收入来源的一个重要组成部分,而广告点击率则是影响互联网广告收益的最重要指标.为了提升广告点击率,对用户实施精准广告推送是行之有效的方法,也是减少成本、提高利润的一个重要手段.介绍了基于用户浏览行为的广告推送系统——APS.APS通过记录用户浏览过网页的相关内容,分析用户访问网页的主题,建立用户相似性模型,对用户兴趣喜好进行个性化预测,从而实现对用户的精准广告推送
微博是网络舆情产生和传播的主要途径,分析微博用户对热门话题和突发事件的观点是舆情监测的任务之一.设计并实现了一个面向微博话题的舆情数据分析平台(public sentiment platform based on microblog topics analysis,PUMA),从新浪微博、腾讯微博等微博平台上爬取热门话题的相关数据,对一定时间段内的舆情数据进行情感分析和话题相关度分析等,掌握公众对
TPC-C规范作为测试数据库性能的行业标准,已被广泛使用在测试联机事务处理(OLTP)性能,但目前仍缺乏开源的可视化工具作为支持.根据TPC-C规范,介绍了一个开源VisualDBBench工具的设计与实现,并且使用VisualDBBench工具进行测试,验证了针对内存数据库在OLTP相对传统数据库具有较优的性能优势.
面向大数据时代下大规模移动对象数据管理的挑战,设计实现了一个移动对象检索服务原型系统.系统基于Linux高性能集群,利用高斯滤波对移动对象轨迹数据进行漂移点数据过滤预处理;设计了一种可扩展时空数据模型存储移动对象轨迹数据;提出了一种数据聚合方法,将大规模移动对象轨迹数据聚合为多分辨率时空立方体,通过传输适当分辨率的时空立方体,大大降低了网络传输数据量;基于HTML5技术,在Web浏览器中高效动态展
针对微博文本篇幅所限、信息密度过低等特点,提出了基于加权序列的微博文本特征表示模型,在TextRank算法的基础上,重新设计了节点选取策略,充分利用了所有可能的微博信息;并提出了2种加权算法,对原始的排序结果进行加权处理,使得权重更具梯度.实验结果表明,相较于其他基于统计的特征表示模型,提出的基于加权序列的特征表示模型,在朴素贝叶斯分类中具有更高的准确率.
车联网应用的最终目标是将由通信设备和嵌入式计算机构成的信息空间与人们的车辆物理空间融为一体,支持用户随时随地并透明地获得符合其个性化需求的信息服务.而车载传感信息具有传感器种类构成多样化、车联网网络规模扩大化、信息规模大数据化等特点.要对这些信息进行有效地利用,就必须充分考虑信息中的空时特性和信息本身的质量.因此,基于上下文感知模型和车联网环境下的上下文种类划分,充分研究基于空时索引的上下文存储方
随着信息化的进展,以智慧城市为代表的新兴应用场景促进了新型协同计算模式的产生.其特征是计算向数据端靠拢,终端节点数目急剧增加且具有局部智能、物理环境及自身资源状态复杂多样等特性,传统的配置管理方式已无法满足新的需求.为应对新技术带来的挑战,提出一种基于情景感知的分布式配置管理机制,通过对终端节点的情景信息进行感知并构建资源向量模型,为终端节点的配置管理策略进行定制化处理.此外展示了实现该机制的原型
以GPS为代表的定位技术的广泛应用使得人们可以得到大量移动对象的轨迹数据,并从中挖掘出有价值的信息.对路网环境下轨迹模式挖掘问题进行研究,提出了适用于路网环境的轨迹模式:频繁路段序列.这是首个针对路网环境提出的轨迹模式,能够反映路网中对象的群体性运动.对于这一轨迹模式,提出了相应的挖掘算法,并利用地图匹配得到的匹配路段信息对算法进行优化.另外,和已有工作中只关注轨迹模式的数量不同,首次提出使用量化
个性化的推荐系统可以精准地为用户提供其感兴趣的结果.但是,酒店是一类特殊的商品,个体对其的偏好差异较大,简单的用户星级评分机制很难满足个性化需求.构建了一个基于位置服务(LBS)的应用,提供个性化的酒店推荐服务.设计思路如下:1)将目光投向内容丰富的用户评论数据,通过对评论进行主题建模来寻找与用户偏好相近的酒店,然后再根据评论的倾向,正面或负面,以及情感程度来衡量酒店质量,越符合用户偏好且评论情感
目前,基于论文合作关系的科学研究人员社会关系网络得到了极大的关注,但是存在实体识别不准确、数据更新不及时等数据质量问题.鉴于此,提出利用历年项目申请书的合作关系,设计并实现基础研究人员社会关系网络查询系统.使用该系统可以展示基础研究人员的社会关系网络,查询基础研究人员间的合作关系.此外,还可以计算基础研究人员间的亲密指数,为项目管理者提供辅助检索与决策,有利于科学基金评审工作的公平与公正.