论文部分内容阅读
随着互联网的发展,搜索引擎要处理的数据量越来越大,为提高信息检索效率,避免传统索引的创建和维护效率不高的情况,设计了一种基于Hadoop分布式索引集群和Hbase分布式查询数据库的解决方案。利用Hadoop的分布式计算和存储框架,采用分布式倒排索引算法,分词并建立索引表,最后存储到Hbase中。通过实验证明了基于Hadoop的分布式索引集群在数据处理方面的优势。