论文部分内容阅读
如何从Web上快速准确的检索到用户所需信息成为亟待解决的问题。为应对这一问题,在信息检索领域产生了主题Web挖掘这一研究课题。它的基本思想可以概括为:根据用户定义的某一主题,用主题爬虫遍历网络,收集与主题相关的页面,然后将收集到的页面进行智能的分析,最后以友好的检索方式满足对某一特定主题的检索要求。本文在分析了主题Web挖掘的研究内容和当前研究存在问题的基础上,将重点研究三个问题:一是提出了antiSpam主题爬虫算法,主要是加强主题爬虫反作弊能力,增加了主题爬虫对主题相关度判定的准确率;二是通过反作弊主题爬虫算法,对收集到的页面集进行分析和过滤,为了研究方便,将页面的文本过滤问题转化成了文本分类。针对向量空间模型忽略文本的上下文信息,提出了基于社区发现的特征选择算法;实验结果表明,这种分类方法在查准率、查全率方面是有效的和可行的。三是为了实现对主题信息采集,在前面算法的基础上,给出了基于Web的主题信息采集系统模型。