论文部分内容阅读
网页消重一方面能解决互联网上存在的信息冗余问题,另一方面能减轻用户的浏览负担,对提高搜索引擎工作效率起着至关重要的作用。藏文网页亦不例外。此文以文档摘要为特征,计算文档摘要的信息指纹。信息指纹转换成固定位数的二进制数值并计算其Hamming Distance来求出相似度。最后根据Hamming Distance来消除重复网页和转载网页。