论文部分内容阅读
随着万维网的日益普及与强大,在网络上搜寻所需的信息变得越来越重要了.诸如AltaVista,Hotbot之类的搜索引擎应运而生.典型的搜索引擎是基于文本匹配的,针对用户的查询会返回多个结果,但要从这许多结果中提取出高质量的页面,还需大量的工作.这种发现高质量页面的过程称为主题提取(topicdistillation).本文中借助基于相似度的模型,我们对ITED系统的特征进行了措述:它完全凭借对链接信息的分析,就在主题提取方面取得了很大的改善;它通过关联规则挖掘的方法,克服了HITS算法中对于相似性的扭曲;它将主题发现的过程结合到主题提取中,使用户能够搜索到更多的相关主题;井且,它以可视化的方式显示主题,方便了用户根据自己的需要选择不同的拨索层次。
在将来,除了完善现有的系统功能而外,我们也试图再进一步改善对于相似度的定义,期望可以在一步中得到有代表性的结果,而不是经过若干次的迭代。