论文部分内容阅读
网络信息的海量化正在导致网络信息的垃圾化,网络信息本身的价值正在被创造海量网络信息的网络本身所消减,解决了信息资源的短缺问题并不一定会带来价值的提升,只有加强网络信息组织的质量控制,解决信息的甄别、加工、提纯和挖掘,从海量形如垃圾的信息中发现真正的知识,才能带来价值的提升。正因为如此,本文试图从质量控制的角度,阐述网络信息的组织,内容主要涉及四个方面:第一章概要介绍网络信息组织的原理和网络信息组织的方式方法,并对传统文献信息组织和网络信息组织的异同作了一个简单的比较分析。第二章介绍网络信息的采集原则、采集技术,认为对于网络信息服务来说,过分强调查全率并没有多大的实际意义,更重要的是要快速准确的查找到用户想查找的信息。网络信息组织采集过程中的质量控制包括两个方面:网络信息采集内容的选择和网络信息采集策略的控制,并分别作了介绍。第三章在介绍网络信息的标引原理的基础上,着重就如何确定Web 页面标引关键词进行了分析和讨论,然后讨论了各种信息检索模型的索引结构及其索引词的处理。第四章在三大传统信息检索模型的相关性分析的基础上,着重分析了隐含语义索引模型对向量空间模型的改进和基于超链接分析的相关性策略。