论文部分内容阅读
摘要:该文首先通过设计一种论坛爬虫程序来获取多个网络论坛中的帖子,并将这些不同格式的帖子转换成统一格式的XML文件,最后将这些XML文件转为倒排文档的索引文件,从而满足了用户对多论坛信息获取的需求。
关键词:论坛爬虫;网络论坛;信息聚合
中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)03-0570-03
网络论坛作为一种信息交流的平台蕴含着大量由用户发表的主题信息,目前互联网上出现了越来越多的具有较高信息聚合度的网络论坛,它们分散在互联网的各个角落,形成了新的“信息孤岛”。用户往往需要访问多个网络论坛来获取这些分散的信息。因此,有必要整合这些“信息孤岛”中的信息,为用户提供统一的访问接口来获取网络论坛中的信息。
该文首先通过设计一种论坛爬虫程序来获取多个网络论坛中的帖子,并将这些不同格式的帖子转换成统一格式的XML文件,最后将这些XML文件转为倒排文档的索引文件,从而满足了用户对多论坛信息获取的需求。
1网络论坛分析
为了整合多个论坛中的信息就需要对多个论坛的信息进行分析并抽象出共同的特征。目前,絕大数论坛都是由板块和帖子构成,即若干主题相关的帖子聚合形成板块,若干板块聚合构成论坛。每个论坛中的帖子地址和板块地址都具有相同的URL地址格式。帖子的URL地址显示了该帖子的内容;而板块的URL地址显示的是帖子标题列表,由于一个板块具有多个帖子,所以往往要划分为多个页面来显示,所以这里的板块URL地址是第一页,通过翻页地址可以链接到该板块的下一页。以“采购经理人论坛”网站为例,帖子的URL地址格式如下:http://bbs.purchasingbbs.com/forum.php?mod=viewthread
关键词:论坛爬虫;网络论坛;信息聚合
中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)03-0570-03
网络论坛作为一种信息交流的平台蕴含着大量由用户发表的主题信息,目前互联网上出现了越来越多的具有较高信息聚合度的网络论坛,它们分散在互联网的各个角落,形成了新的“信息孤岛”。用户往往需要访问多个网络论坛来获取这些分散的信息。因此,有必要整合这些“信息孤岛”中的信息,为用户提供统一的访问接口来获取网络论坛中的信息。
该文首先通过设计一种论坛爬虫程序来获取多个网络论坛中的帖子,并将这些不同格式的帖子转换成统一格式的XML文件,最后将这些XML文件转为倒排文档的索引文件,从而满足了用户对多论坛信息获取的需求。
1网络论坛分析
为了整合多个论坛中的信息就需要对多个论坛的信息进行分析并抽象出共同的特征。目前,絕大数论坛都是由板块和帖子构成,即若干主题相关的帖子聚合形成板块,若干板块聚合构成论坛。每个论坛中的帖子地址和板块地址都具有相同的URL地址格式。帖子的URL地址显示了该帖子的内容;而板块的URL地址显示的是帖子标题列表,由于一个板块具有多个帖子,所以往往要划分为多个页面来显示,所以这里的板块URL地址是第一页,通过翻页地址可以链接到该板块的下一页。以“采购经理人论坛”网站为例,帖子的URL地址格式如下:http://bbs.purchasingbbs.com/forum.php?mod=viewthread