论文部分内容阅读
随着互联网的飞速发展和互联网信息爆炸式的增长,海量数据处理越来越受到人们的关注。微博,作为今后互联网最重要的发展方向的一个重要的代表模式之一,已经成为了许多人最重要的沟通、营销工具。这些活动产生的海量微博数据的处理和利用,成为一个热门的研究课题,而对这些海量的微博数据最为直接应用,就是基于微博数据的搜索引擎。
本文将在着重讨论与研究相关的海量数据处理的同时,研究与设计一个新的微博数据搜索应用——“搜索兴趣”,论文的主要工作如下:
首先,研究与讨论了相关的海量数据处理技术,主要是海量数据存储,海量数据读取,以及海量数据业务处理等技术,而支撑这些技术的主要是Google的三大核心技术:BigTable,GFS分布式文件系统,MapReduce分布式编程模型。
其次,本文研究与讨论了基于Google三大核心技术原理而实现的一个优秀的开源项目:Hadoop项目,主要涉及到了相关的Hadoop MapReduce架构,Hbase文件存储,HDFS分布式文件系统;同时,研究与讨论了Solr搜索引擎,主要对Lucene搜索工具包、Solr的发展历史、特性以及体系结构等进行了深入研究。
最后,提出了一个Hadoop与Solr相结合的体系结构,利用Hadoop的分布式结构和预先分词技术对Solr搜索引擎的索引生成进行了高效的优化;同时,提出一个基于微博兴趣搜索的排名算法,包括针对微博内容、用户信息的权值模型和采用语义树进行语义扩展等,最终实现了基于微博内容搜索相同兴趣用户的应用。
实验表明,论文设计与实现的兴趣搜索平台其搜索结果准确和可信,可以帮助用户找到不易被发现的相同兴趣用户,具有良好的实用性,对现有的微博搜索应用是一个良好的补充。