论文部分内容阅读
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度,提出了一种Web文档的聚类算法,该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档,再以文档事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;间距离和类风连接强度阈值合并,拆分类,最终实现档聚类,实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值。