论文部分内容阅读
论文详细描述了在新闻信息挖掘和分析系统中的数据准备阶段中信息获取和信息处理模块的实现细节。从网页获取方式的采用开始,到网页获取的具体实现,再介绍了网页信息预处理实现的整个过程。其中,重点提到了网页正文信息的提取过程中,对基于模板的SST树的正文提取方法的优化,通过优化从而使得对正文提取的准确度更高,对后续的分析过程也提供了帮助。接着描述了为了提高网页信息分析阶段效率而进行的索引建立的过程以及数据存储的方式。并在最后对整个实验进行了功能性的分析和展望。