基于爬虫和文本聚类分析的网络舆情分析系统设计与实现

被引量 : 11次 | 上传用户:easyJMS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代互联网技术快速发展的带动下,以万维网作为信息的核心载体给人们搜索信息、共享信息提供了丰富的数据源,但在网络资源中快速获取精准有效信息变得越来越难,而且信息的置信程度也难以保证。现有搜索引擎技术和产品,如Google、百度、HotBot等,在很大程度上满足了人们获取网络信息资源的需求。但是,如何面对不同的用户偏好、用户背景等,识别用户潜在的搜索意图,挖掘用户背后真正需要的信息,对搜索引擎系统设计的重要性毋庸置疑。本文在对已有搜索系统研究基础上,研究个性化搜索的应用,并开展了搜索系统在舆情分析中的应用研究。主要内容包括:阐述了个性化搜索系统中的用户兴趣模型、网络信息抓取、网页信息分析与挖掘、文本聚类分类等关键技术,并基于系统的功能需求分析,设计了个性化搜索系统的总体框架和各个模块,通过个性化搜索系统在网络舆情分析中的应用,对舆情分析的关键技术进行了研究,并给出了系统的性能测试和分析结果。本文工作主要体现在以下两个方面:1)通过整合网络爬虫、文本分类与聚类、及索引技术,设计了一种基于用户兴趣模型的舆情热点信息挖掘框架。该框架通过网络爬虫中的信息抓取、信息过滤与更新策略,获取网络中有效的信息;然后采用改进的文本分类与聚类技术,挖掘出网页中的舆情分布、来源等热点信息,并且与用户进行交互,通过用户的反馈,构建相应的用户兴趣模型库。该框架为基于用户的个性化搜索系统设计提供了良好的参考。2)针对传统K-Means聚类算法对文本初始化聚类中心较为敏感及容易陷入局部极小点的问题,提出了一种基于向量空间模型的K-Means改进聚类算法。该算法提高了文本聚类及分类的准确率,有效解决了传统K-Means聚类算法在文本挖掘中的问题,并且也提高了文本挖掘的效率。
其他文献
高校、科研院所等机构通过科研项目管理系统实现项目管理、成果管理及绩效考核的信息化和智能化,本文对科研项目管理系统的背景、意义进行了概述,并对其国内外相关的研究现状
<正>挥发性有机物在常温下以蒸气的形式存在于空气中,容易被人体皮肤、粘膜等吸收,对人体产生急性损害;同时在阳光照射下与大气中的氮氧化物产生光化学反应,生成光化学烟雾和
PCR技术是1985年建立的一种核酸片段体外酶扩增技术,它经变性、退火、延伸的循环,使核酸片段指数式增加。PCR技术可应用于分子生物学的许多领域,如基因缺失测定、复杂基因的
随着世界经济一体化进程的加快,企业间的竞争越来越激烈。为了增强企业的市场竞争力,企业必须不断地加强内部控制的建设。内部控制作为企业管理的内核,长期以来是学术界研究
近年来,随着我国经济发展水平的不断增加,国家将更多的物力财力投放到教育领域中去。作为提升区域竞争力水平不可获取的一环,教育领域受到政府、社会的广范关注。而教育问题,
<正>师德建设是一项长期的系统工程,任何时候都不会过时。在一定程度上有什么样的教师,就有什么样的学生。教师对学生的影响是无法估量的!唯有师德高尚,我们才能肩负起时代的
终身教育是指人在一生中各阶段所受同类型以及不同类型教育的总和。包括教育体系的各个阶段和各种方式,有学校教育,又有社会教育,既有正规教育,也有非正规教育。终身教育主张
<正>一段时间以来,传统主流媒体尤其是极具强势地位的机关报、电台、电视台一直充当着舆论监督的领头羊。然而,随着社会转型期的到来和新媒体的发展,传统主流媒体舆论监督的
本文基于两相介质动力学方程组,利用显式集中质量有限元结合透射人工边界,研究了复杂介质情况下盆地和凸起地形对地震波传播的影响。研究表明,控制波在盆地传播的主要因素有
从鱼腥草[1]的有效成分、药理作用、临床应用、开发利用等方面总结了鱼腥草的研究进展。鱼腥草含有多种有效成分,其药理作用十分广泛,药用价值极高,具有极大的开发应用前景。