论文部分内容阅读
舆论是指在一定的社会空间内,随着某一事件现象的发生、发展、变化,民众对该事件的态度。舆情是舆论的放大体,指民众对社会现象的看法、想法态度及意见的总和,也是民众的社会政治态度对执政者决策行为有影响和指导作用的那一部分。随着互联网的发展,作为继报纸、广播、电视三大传统媒体之后的第四媒体,网络的特殊作用日益显现,网络舆论逐渐成为社会舆论的发源地和放大器。在互联网时代,网络舆情作为社会舆情的网络反映,成为社会舆情的最主要的构成之一。如何正确引导网络舆情,避免不良态势的蔓延,这些给执政党和各级政府带来了前所未有的挑战。为了合理引导民众对热点社会问题的关注,需要有效提高网络舆情监控的能力。为了对互联网上的舆情信息进行有效管控,首先就要获取重要网络媒体的发布信息,即对互联网上发布的舆情信息进行信息采集。然而由于网络信息的形式多样,涉及到的信息量极其庞大,各种网络舆情信息的来源也不尽相同,传统的收集分析机制很难有效的完成舆情采集工作,因此必须构建一个高效的舆情收集信息系统来完成这样的工作。这是基于这样的背景,本文将理论研究与实证研究相结合,首先研究了网络舆情构成和特征,结合当前国内互联网应用的实际情况,认为网络舆情信息采集的信息来源主要是各大论坛、网络社区和网民博客等能够集中反映公众对某一具体议题的情绪、意愿、态度和意见的地方。然后研究和比较了当前适用于网络舆情信息定向采集的各种理论、技术和信息采集方案,提出了通过通用搜索引擎和网络爬虫相结合的网络舆情信息采集模型,以满足对各种层次的网络舆情的采集需求。为了保证系统的实时性和减少数据的冗余度,研究了网络爬虫的搜索策略、重新访问策略和礼貌策略,提出通过采取正则表达式过滤的方式,淘汰网络爬虫爬行过程中不符合要求的URL,防止系统偏离目标站点并收集多余数据。最后,本文从舆情网络信息采集和分析的需求出发,开发了网络舆情信息采集系统,实现了从URL抓取、网页源文件抓取、标题和正文抽取、网页去重等一系列工作流程,为今后继续对网络舆情信息的分析和处理打下了基础。