社交媒体数据查询处理及其性能测试

被引量 : 0次 | 上传用户:wjh198004546
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.技术的不断发展和普及,以新浪微博为代表的社交媒体吸引了数以亿计的用户。社交媒体开始在人们的日常生活和工作中发挥越来越重要的作用,与此同时,也给研究人员带来不少新的问题与挑战。学术界和工业界都投入了较多精力去研究社交媒体数据,以期快速响应海量社交媒体用户的高并发操作,并有效实现社交媒体的推荐、监控和分析等功能。本文针对社交媒体分析型查询处理和性能测试问题开展研究,主要贡献如下:1.研究新浪微博这一具有代表性的社交媒体,并从中抽取出用户信息、社交网络和微博,分别建立多元组模型和图模型;针对社交媒体的特征,在这些模型的基础上,定义了三类查询:社交网络查询、热点查询和时间轴查询。2.为面向社交媒体分析型任务的系统设计了一套性能测试方案:提供真实数据集,设计三类查询的十九个具体实例,制定吞吐量、延时、扩展性三项指标,用以衡量待测系统性能的优劣。采用该方案的性能竞赛测试结果表明,现有相关研究工作较难处理社交媒体的多属性热点查询和时间轴查询问题。3.针对多属性热点查询处理存在的问题,从社交媒体数据的存储与管理出发,将社交媒体上的多属性热点查询问题转化为键值存储器上的多属性查询问题,为开源的Cassandra系统设计了一种基于格雷码的索引构造方法,并集成分布式缓存服务器加以优化,实验表明该方法较好地解决社交媒体数据上的多属性查询问题。4.针对时间轴查询处理存在的问题,着重研究了社交媒体上的首页时间轴查询问题,这类时间轴查询对并发量和实时性要求较高。通过研究社交媒体数据负载的特点,利用社交媒体的在线社区特性,并结合社交媒体用户访问频率的差异性,提出一种负载敏感的首页时间轴查询处理办法,实验表明该方法在系统开销和性能表现上优于现有策略。综上,本文通过制定性能测试方案,分析总结了社交媒体数据上的查询处理问题;设计了一种基于格雷码的索引构造方法,用以处理社交媒体数据管理方案一键值存储器上的多属性查询问题,并通过实验验证该方法的有效性和高效性;设计了一种负载敏感的首页时间轴查询处理策略,用以处理社交媒体上的时间轴查询问题,并通过实验验证该方法在系统开销和性能表现上的优势。
其他文献
少数民族地区由于地域偏僻,经济发展缓慢,思想观念保守等原因,学生德育现状不容乐观,加强德育显得尤为迫切。探讨了在少数民族地区实施柔性德育是解决这一问题的可能途径。
随着市场经济高速发展,现代科技在人们生活、生产中的运用越来越广泛,电能成为必不可少的能源。为保障用电安全,用电检查成为供电行业经营管理中的重要任务。用电检查的最终
生命系统中存在着丰富的非线性现象。我们对于恒流电刺激下的单根神经纤维兴奋性进行了计算机仿真 ,观察到了非线性振荡现象 ,得到了膜电位稳定态和周期态与刺激电流强度的关
<正>最近中央、省、市委都出台关于改进作风的有关规定,我们必须认真总结人大文风中存在的问题,深入剖析形成的原因,采取切实可行的措施,改进作风、净化文风,努力树立权力机
期刊
对全球性资源探测、天基预警、导航和无线通信等服务的需求日益增长,推动了卫星星座系统设计方法的快速发展。卫星星座系统设计是一个典型的大规模、高度约束、多目标和多学科
心脏收缩释放的能量(作功)是心肌纤维长度(心室舒张末期容积,EDV)的函数,即Frank-Starling(FS)心脏作功定律,被誉为心脏生理学中的"经典"理论,对此,笔者从各种不同角度进行了
【背景】农业生产中,发掘和利用具有生防功能的微生物资源是保障粮食安全和提高作物产量的重要举措。【目的】明确土壤中芽孢杆菌SK007的分类地位,验证其对多种植物病原菌的
<正> 安乃近,又名诺瓦经是应用广泛的解热镇痛药之一,尚未见引起过敏反应的报道,作者曾遇一例,报告于后。患者,男性,34岁,因劳动受凉后,即觉周身不适,乏力、头晕、头痛、畏寒
期刊
本文提供了多方面证据论证地下核燃烧假说是符合客观实际的。第一,氡增多和汞增多是确定无疑的地震前兆,对这两种地震前兆的唯一合理的解释是地内存在着铀、钍元素的核裂变燃