大规模社交网络数据分布式搜索的研究

被引量 : 6次 | 上传用户:coolfish_dj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着web2.0概念而来的,是新型的社交网络平台。社交网络平台的数据与传统网站有极大的不同,其中最明显的是其内容是由用户来发布的,而且用户之间有互动关系。正由于发布者的广泛性、内容的多样性、用户关系的复杂性,传统的搜索方案面临着数据量暴增,数据更新频繁的挑战。本文主要研究的是影响最为广泛和用户群体最多的新浪微博社交网络平台。其主要目的是提供一整套大规模社交网络数据的分布式搜索方案,可以索引新浪微博全网用户数据,不断更新数据以保证准确性,最终提供搜索统计系统展现数据,并能提供接口为后续的数据分析提供支持。本方案将对比现在比较有影响力的开源分布式搜索方案,选择最为符合要求的方案进行配置和封装,得到一个通用基础的社交网络搜索架构,使其满足基本的社交网络数据搜索需要,然后在此基础上针对新浪微博社交网络平台的用户数据的数量和特性进行改造和优化,提高性能和稳定性,并对外提供可读性良好的专用搜索统计接口和一个web搜索服务器。本方案实现以后,提供了一个高速、实时、稳定、可伸缩的分布式索引集群,集群内有亿级新浪微博社交网络平台的用户数据,四个月来稳定运行,成功解决了数据量大,数据更新频繁的问题,满足了该公司实时获取用户数据的需求,并能为后续的数据分析提供有力的支撑。
其他文献
目的 探讨学校开展视力筛查活动对学生采取视力矫正行为(配镜)的影响,为制定有效的视力监控措施提供科学依据。方法 利用2012年抽样调研数据,以陕西和甘肃两省随机抽取的252
近年来,随着我国经济的快速发展,物流业也得到迅速发展,这对物流管理专业建设和发展提出了新的要求。本文分析了目前物流管理行业的发展现状,对物流管理专业建设、师资队伍建
法学包含许多分支学科,法学界的学者们对于自己所主要从事研究的分支学科,当然要潜心仔细研究,要“钻进去”;但也要能时常“跳出来”,跳出各分支学科,站在整个法学和甚至更为
[目的]研究不同GA3预处理对百合切花的保鲜效果。[方法]在基本配方(蔗糖+8-HQ)的基础上,测定不同浓度GA3预处理下百合切花的瓶插寿命、形态指标和生理指标。[结果]适当浓度GA3(10
享受平等受教育的机会,是每个公民最基本的权利。师资问题成了当前教育公平的一大难题,农村地区的学校师生比严重失调、教师教学任务繁重、教师结构不均衡等问题尤为突出。为了
随着中国航空技术的快速发展,大量飞机投入商用,飞机蒙皮损伤检测问题关系着飞机飞行的安全,越来越受到人们的关注。针对飞机蒙皮检测机器人在曲面运动吸附的稳定性问题,本文
通过“自编课程意识问卷”调查了我国中小学体育教师857人,结果表明:我国中小学体育教师的课程意识水平较低,处在觉醒水平;性别、工作年限、所在学校、学校所在地对体育教师课程
互联网技术和移动媒体的广泛应用,促成了新媒体广告如火如荼的发展势头。新媒体传播载体丰富,传播手段灵活,可以将海量讯息以多样的形式、具体的形态传递给客户,再加上雄厚的价格
作为《劳动合同法》的重要内容之一,自该法颁布实施以来,无固定期限劳动合同制度引起了社会各界的激烈争论。构建稳定和谐的劳动关系是无固定期限劳动合同制度的目标之一,然而,不
目的:研究内源性组胺在前脑缺血再灌注后期的神经保护作用。方法:将野生型(WT)小鼠和组氨酸脱羧酶基因敲除(HDC-KO)小鼠各随机分为对照组和缺血组,缺血组小鼠双侧颈总动脉夹