论文部分内容阅读
搜索引擎是目前最主要的WWW信息检索的工具,然而,用户对当前搜索引擎的检索效果并不满意。这主要表现为: (1)搜索引擎返回的结果是一个庞大的平坦结构的资源清单(即信息负载问题); (2)搜索结果中的信息项并非都是用户真正需要的信息资源(即低精度问题); 论文提出了一种基于文档文本内容和文档间超链信息的混合相似度的模糊(软)聚类算法HTSC。该算法可对搜索引擎返回的结果进行模糊聚类,以方便用户从中找到真正需要的信息。 论文的主要贡献是: (1)给出了基于文档文本内容和文档间超链信息的混合相似度计算方法。 (2)比较了一般的聚类方法及模糊聚类方法的优缺点,并给出了基于混合相似度的模糊(软)聚类算法HTSC。 (3)对HTSC算法进行了理论分析,并对其中的核心算法进行了初步的实验验证。