论文部分内容阅读
文章主要分析了Web InfoMall和WICP的体系结构,并基于Web InfoMall提供的中文网页测试数据集,分析了中文网页、网站以及域名的规模,保存格式等。结果表明,中文网页、网站以及域名的分布与全球互联网都遵循近似相同的规律,同时也有其自身的特点。另外,中文网络资源归档在内容收集、长期保存的格式及实现等方面已经取得了实质性进展。