论文部分内容阅读
网络论坛已经成为互联网信息发布的主要形式,对论坛信息的检索和挖掘都涉及到论坛信息的获取,然而传统的针对静态网页的广度优先采集工具,不能有效地获取论坛信息。该文利用论坛的结构特点,提出了一种“版面-主题关联判断”(BTCJ)算法,采用一种基于版面扩展的采集策略。实验证明,该方法在论坛采集准确率和覆盖率方面显著优于广度优先策略;具有良好的泛化能力,应用在实践中已覆盖各种类型的论坛12000余个。