论文部分内容阅读
WWW上的资源大多以HTML格式的文档存储,同普通文档不同,THML文档的标签特性使得它具有一定的结构我们采取了一种检索,它扩展了传统的传统检索,利用HTML文档结构提高了在WWW环境下的检索和率。本文介绍了HTML的结构以及传统的向量空间信息检索提出了运用聚族方法为标符合分组;最后详细讨论了如何利用文棣结构扩展加权架,使得检索词能更贴切地描述文档,以提高检索的准确性。