论文部分内容阅读
分布式搜索是解决对深层网络搜索的有效方案,各节点的索引量大小是分布式搜索引擎描述选择节点的重要参数。为了解决在非合作环境中估算节点索引量大小的问题,提出并实现了基于高频词汇再采样的高频再采样算法和基于文档捕获概率不同假设的异概捕获算法。高频再采样算法在随机采样后基于样本集中的高频词汇进行再采样;而异概捕获算法则利用Logistic函数和条件似然方法估算节点的索引量大小。通过真实网络数据的实验结果表明,这些算法优于已有的采样-再采样与捕获-再捕获算法。