论文部分内容阅读
该文主要探讨BBS类论坛网页的文本数据的爬取与分析。首先,对该类论坛网页的HTML结构进行研究分析。在该类在论坛类网页中,文本数据主要包含链接页面中的全部主贴、全部回帖。其次,结合正则表达式、网络文本挖掘、Python工具、HTML等工具构建该类型论坛网页文本数据的抓取算法。为了便于用户阅读文本,还需要构建整理、清洗网页文本数据的算法,将抓取的网页文本数据整理为主题和回帖对应的json终极数据格局。