论文部分内容阅读
由于因特网和web都是开放、变化、非结构化、动态无序的海量信息资源组织,所以对于网络信息数据的采集和质量控制成为网络计量学领域集中研究的热点问题。本文针对网络信息数据采集的质量控制问题进行了比较全面的研究,内容涉及网络检索时段的统一测定,Web网页及Web网站的抽样设计,避免重复采集网页和优先搜集重要网页的方法,以及面向主题进行特定信息采集的技术等。