论文部分内容阅读
网络搜索引擎在网络信息资源查找中起到了重要的作用,它可以帮助人们从浩如烟海的网络信息中找到自己想要的信息。但是现在的搜索引擎技术并不完善,存在大量内容相同的冗余网页。冗余网页不但浪费了存储资源,还给用户的检索带来诸多不便。本文描述了一个搜索引擎去重Agent系统,由系统代替用户对搜索引擎结果页面进行信息抽取,对获得结果进行对比,并去除其中内容重复的冗余网页,将去重后的结果提供给用户,从而为用户节省时间和精力。