论文部分内容阅读
随着网络信息化的不断发展,舆论的传播方式和传播速度都发生了巨大的变化,互联网已成为我国的主要舆论聚集地,并且无时不刻的影响着人们的生活。因此通过网络分析研究舆情信息可以了解大众心态和民意,对经济、社会、政治的发展都具有重要的意义。但是网络传播的信息具有数据量大、半结构化、异构性等特点,使得人们在获取相关信息和进行研究工作都面临很大的困难,因此需要建立一种舆情信息预处理平台来完成互联网信息的分析预处理。本论文首先对国内外舆情信息预处理的相关技术进行了研究及分析,总结了它们的优缺点,深入分析了舆情信息预处理平台的设计和技术实现等方面的问题,然后在现有技术的基础之上提出了用于舆情信息预处理的技术方案,实现了将海量网页信息进行处理分析以及重复利用的功能。本文的研究内容和主要成果有:深入分析了URL结构的特点,采用了URL比较分析的方法对海量网页进行处理,完成了对用户指定网站的筛选过滤;提出了对文档对象建模的网页信息抽取算法,并且设计了基于抽取规则的文档对象匹配模板库,对网页中的无关信息进行滤除,并且将提取到的关键信息录入关系型数据库,以备日后的分析和使用;提出了基于四字索引分词词典的实现方案,采用最大正向匹配算法对中文内容进行扫描切分,较准确地完成了对中文信息的分词处理和词频统计等功能;在对多线程机制深入研究的基础上,提出了利用线程池来管理多线程的技术方案,使系统效率得到了较好的改善。通过实验验证了本文所提出的信息处理方案,实验结果表明,本文设计的方案高效可行,有很高的准确率和使用价值。本文基于以上的工作,根据平台的总体设计原则,规划了舆情信息预处理平台的总体框架结构,完成了平台的模块划分,设计了各模块的功能以及数据库结构,最终开发出了一种运行稳定,效率良好的舆情信息预处理平台,希望通过本论文的研究能够对舆论分析的理论研究做出微薄的贡献。