论文部分内容阅读
高校网站群使用部门众多,热点网页容易重复,这对于信息抽取来说,容易造成重复提取。本文对高校网站群近似镜像网页的检测进行了分析,比较了常用的几种检测算法,根据高校网站群的特点,选择了合适的算法。本系统可以运行在校园网站群之上,自动对各种近似镜像网页进行检测与去重。测试证明,这种方法完全满足高校网站群的需求。