论文部分内容阅读
随着网络在我国的日益普及,对于乐于接受新鲜事物的青年大学生来说,网络几乎已经成为和衣食住行一样的“生活必需品”。与此同时,校园论坛也成为了学生们交流和表达意见的主要平台。为了及时的了解校园内的关注热点,校园网络信息管理系统的引用是非常有意义的。本文设计与实现的论坛爬虫系统是该系统的子系统,负责论坛数据的采集,为校园网络信息管理系统后续的数据分析提供数据源。传统的通用爬虫在爬取论坛时会遇到大量重复的链接,浪费资源而且效率低下;另一方面,已有的一些面向论坛的爬虫是为特定的用户量身打造的,仅作用于单个论坛。本文分析了多种论坛在结构上的差异,研究了现有的几种主流爬虫的工作特点和系统架构,提出了一个能够适应不同论坛的增量爬虫实现方案。并经过分析系统的需求,设计各个分模块,详细阐述各模块的具体实现细节。本文的主要工作包括:首先分析各论坛特点,抽取共性,剥离不同点,对不同风格的论坛确定爬取措施;其次根据板块的热度和论坛的特点,制定基于板块权重的增量爬取策略;最后,为了提高系统的通用性和灵活性,使用了XQuery模版的方式来解析页面,抓取正文内容。本文通过部署并运行测试爬虫系统,分析爬取结果,表明系统能够持续稳定运行,满足设计的需求,具有一定的可用性。