论文部分内容阅读
互联网中,黄色、暴力、赌博、反动等不良网页大量存在。如果不进行有效过滤,将给搜索服务带来不良的影响。采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进行分布式并行处理。对比实验结果表明,所采用的识别方法的识别准确率和识别效率都有较大的提高。