空间文本数据的量质融合与推送

来源 :清华大学 | 被引量 : 0次 | 上传用户:shaomingfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机等移动设备的普及以及移动互联网络的快速发展,基于地理位置的服务得到了广泛的关注与应用。这些服务产生了大量空间文本数据,既包含空间地理位置,同时又具有相关的文本信息。能否更好地利用这些数据方便我们的日常生活,有两个方面的因素尤其值得考虑:第一,数据质量,高质量的数据能够提升用户体验;第二,用户获得信息的途径,用户需要高效便捷的获得感兴趣数据的方式。本文主要针对这两方面展开研究:一方面对空间文本数据进行质量优化,包括提高数据准确性,降低数据冗余;另一方面研究如何应对不同用户的需求,将空间文本数据信息高效地推送给用户。本文的研究内容与贡献具体包括:(1)基于众包的空间文本数据提纯:为保证数据正确性,用众包的方法帮助筛选数据中的正确关键词。本文提出了基于众包的任务执行框架。一方面,将空间文本数据作为任务发布在众包平台上并收集工人答案。为能够根据工人答案筛选正确关键词,结合工人质量等因素构造了一个有效的推断模型。另一方面,为进一步提高推断准确率,研究了能够最大化推断准确率提升的众包任务分配算法。(2)空间文本数据的top-k融合:为降低数据冗余,对数据进行top-k融合。传统方法不考虑空间文本数据的结合,为解决该问题,本文提出了一种基于空间文本签名的过滤验证算法框架,通过签名过滤不相关的数据对。接着发现签名的访问顺序对算法效率有着巨大的影响,于是提出了一种最佳优先算法,以签名上界从大到小的顺序逐一访问签名。这种方式能够快速地找到top-k结果。此外论文优化了空间文本签名,提出了扩展的空间文本签名进一步加强了算法的过滤能力。(3)空间文本数据的推送:为满足用户不同的推送需求,本文提出并研究了参数化的空间文本信息推送问题。为解决该问题,论文提出了一种空间前缀以及对应的过滤验证算法。又结合经典的空间层次索引结构提出了区域前缀,区域前缀能有效减少前缀大小并支持区域过滤。在此基础上结合多关键词过滤技术提出了空间文本前缀,进一步提升了算法的过滤能力。
其他文献
这项研究的目的是发展用热力学第二定律分析柴油机在不同运行工况性能的能力.研究是针对一台12150L型柴油机进行的,以发动机气缸内部压缩、燃烧、膨胀、瞬时传热和换气过程的
生物生活化教学就是要求生物教学源自生活,回归生活,从生活中获得提升。以高中生物为切入点,就高中生物的生活化教学策略展开探究。首先对开展生物生活化教学的必要性进行分
<正>本刊讯2014年11月27~28日,四川造纸行业协会、四川省造纸学会在成都市金牛山庄召开了全省造纸行业工作会暨省造纸行业协会、省造纸学会2014年年会。省造纸行业协会代理理
本文采用Beatty报道的非竟争性ELISA结合双抗体夹心法测定了5株单克隆抗体的亲和力常数。直接采用杂交瘤的细胞培养上清,无需纯化抗体,无需对抗原精确定量。而且,方法简便、
糖尿病肾病当归于消渴病之下消,病位在肝肾,病及周身,属本虚标实,虚实夹杂之证,李显筑教授认为,本病治疗宜攻补兼施,重在肾络,久病缓图。
人权保障是几百年以来人类社会共同追求的目标。在押人员作为一个特殊、脆弱的社会群体,其权利保障极容易被忽略。人权保障也已成为当今中国的主流价值,在此背景下,本文分析
个人消费信用的风险管理问题具有重要的理论和现实意义,具有一定的社会历史性,随着人们对个人消费信用的日益重视,关于个人消费信用风险管理问题的学术著作和文章也不断涌现
甘露糖结合凝集素相关丝氨酸蛋白酶2(MASP-2)是补体凝集素途径关键酶,位于染色体1p36上,约20 kb,由686个氨基酸残基构成。通过病原相关分子模式识别病原体,与凝集素结合,以酶
模拟实际火灾环境分别制备了两种短路熔珠,对其金相组织进行了定性和定量分析,研究了熔珠凝固后火场高温火烧对金相组织的影响,提出了鉴别两种短路熔珠的方法,即通过分析组织
广告创意是一个非常活跃的艺术层面,同时也给广告创意人员带来了不便,本文拟就广告创意与民族文化认同、民族文化尊重、中华文化的特性等问题试作论述,使广告创意人员及广告