基于聚类的网络热点事件挖掘技术研究

被引量 : 0次 | 上传用户:liongliong448
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,全球网络化进程不断加深,互联网作为新兴媒体,以其开放自由的特性,用户数量及影响力都迅速赶超传统媒体。特别是近几年,我国通过网络爆发的重大舆情事件激增,而且涉及的范围从原来的教育、娱乐正逐步拓展到国际国内经济、政治、民生等更高层次的领域,并且都不同程度地掀起了网络舆情浪潮。在这样的背景下,舆情核心词挖掘技术和信息聚类技术会越发的凸现出重要性,成为一个值得深入研究的方向。本文主要完成以下工作:首先,在分析传统舆情分析相关技术基础上,提出了具有较强适应性的数据组织结构,使得被研究对象不仅局限于单一的网络舆论传播载体,为不同载体上的语料数据能在同一个平台上被分析研究打下了一定的基础。其次,针对当前网络新词泛滥和爆发性网络群体事件中核心关键词未必符合汉语语法的问题,设计了网络舆情核心词挖掘算法——CEW(ContinuousEffective Words)算法,即“有效连续词挖掘”算法。并利用此算法对ICTCLAS分词系统进行一些改进,使得该系统具备了动态挖掘网络新词的能力。再次,在研究原有经典的聚类算法的基础上,针对网络舆情数据量大、且不相关孤立点众多的特点,提出了快速且高效的舆情语料聚类分析算法,能够以较高的准确率和较低的召回率来对舆情数据进行聚类。最后,通过大量的语料测试结果进行人工检验,我们验证了本课题中设计的算法在处理多载体语料数据集时有较好的效果。并且,通过对程序结构的优化,我们将两个算法的时间复杂度均优化至线性水平,为以后在大型数据集上应用打下了良好基础。
其他文献
随着科学的发展,目前我国的信息技术具有以下几个方面的特点:数据高速传输、打破地域限制、实现多点传输。这些特点给检察业务管理带来了很多便利,检察机关作好信息化技术建
市场经济发展使得不同区域的经济差距逐渐拉大。山西省位于我国中部,近几年来经济发展迅速,然而作为欠发达地区,其经济发展仍旧存在很多问题。太原市是山西省省会,是山西经济
大学英语泛读在高职院校中是一门培养学生阅读兴趣,了解社会文化,提高阅读能力的重要课程。本文从泛读教学目的和意义入手,剖析泛读教学中存在的常见问题,结合《大学英语泛读
本文首先简单地论述了体验的基本概念,接下来说明了体验的的形式、行为、与内容之间的关系。在这种基础上进一步提出了体验设计的方法,主要从用户体验需要的5个层次、4个独特
目的:探讨新辅助化疗(neoadjuvant chemotherapy, NACT)联合腹腔镜手术治疗结直肠癌的疗效和安全性,为结直肠癌的治疗提供临床依据。方法:回顾2009年7月-2010年12月泉州第一医院
在微波辐射下,以AlPW/C为催化剂催化合成了柠檬酸三丁酯,用均匀设计法优化了合成反应条件.优化工艺条件为:酸:醇=1:3.5(m/m),微波功率为360W,微波辐射时间为20 min,催化剂用
河南中烟工业有限责任公司南阳卷烟厂(简称南阳卷烟厂)始建于1950年,2007年,河南中烟工业有限责任公司对属下的八家卷烟厂实施一体化重组,南阳卷烟厂成为河南中烟工业有限责任公司
本文以河南登封少林寺景区的两则不同文体风格的景介为例,分析、探讨、总结其主要翻译策略及技巧,凸显了翻译过程中语言、语用及文化因子的处理方法,强调了规范翻译流程对提
化工行业是我国经济发展的重要支持行业,但是也是对环境造成污染的重点行业之一。因此,为了进一步促进化工行业的可持续化发展,同时保护我们的自然环境,必须要使化工企业进行
<正>业主:我们夫妇对时尚敏感、洞悉潮流,对于生活有着与众不同的精神诉求,时尚简约又不乏艺术人文理所当然成为我们对家的审美要求。于是,设计师以低调奢华的现化设计风格,
期刊