论文部分内容阅读
随着互联网技术的不断发展,用户收集和分析与特定主题相关的网页显得越来越困难。谊文提出了面向主题的WWW信息的分类系统(WICS),该系统可以高效地收集网页,然后进行分类,最后将搜索结果呈现给用户。该文在分析典型的搜索引擎的基础上,介绍了Web文本挖掘,并将其应用到系统中。原型系统中使用了文本预处理、索引、倒排文件和向量空间距离测度等技术、算法。初始实验表明,用原型系统进行Web信息分类,为用户获取信息提供了很大的方便,提高了搜索结果的相关性和精确度。