论文部分内容阅读
随着网络技术的迅速发展和普及,人们的生活工作越来越依赖于互联网,而互联网也逐步成为人们获取信息交流信息的一个主要平台,由于网络信息传递的便捷与自由的特点,正面的和负面的信息在互联网上的传播都非常的迅速,同时网络的信息成为能够很好的反应社会当下舆情的一个主要媒介,这些负面的舆情要是不加以适当控制可能会对社会带来巨大的影响,同时一些正面的舆情信息的获取能够为政府机构等作出正确的决策提供辅助作用。而作为一个网络覆盖率高达90%以上的高校来说网络舆情在网络环境中的作用尤为明显,复杂的网络环境不仅可以给学校的教育以及日常管理带来极大好处,同时也为一些负面信息的传播提供很好的平台,所以对高校网络舆情监控就变得十分紧迫而且重要。而论坛作为学校最活跃的网络平台也就成为了舆情传播最主要的途径。所以本文针对高校论坛舆情信息的捕获与分析做重点研究。鉴于网络舆情的海量特点,再用人工手段收集以及分析的成本变的很高而且效率不高。在此提出高校论坛舆情捕获分析系统的实现与研究。该系统能为高校管理提供很好的决策辅助作用。综合高校论坛的特性,本文主要针对以下几个关键问题展开讨论和研发:多线程聚焦网络爬虫,高效率中文分词,文本倾向性分析。首先对Web页面收集技术即网络爬虫进行了研究,并将其原理与高校论坛特性充分结合,提出了一个定向于校园BBS的舆情数据收集与提取系统。并采用针对论坛的聚焦型网络爬虫,加入多线程技术,大大提高网络爬虫的工作效率。在中文分词方面是在使用盘古分词方法的基础上做出适当修改,加入关注词高亮显示功能。该方法在分词之前,会把三个词典提前加载到内存的Dictionary中,并且使用哈希函数来加快Dictionary的读取效率,因而分词效率很高。在现有汉语倾向性分析的研究基础上,本文提出了针对BBS主题帖及跟帖的倾向性分析方法,通过实验表明,本研究初步达到设计要求。