微博评论信息的聚类分析

来源 :安徽大学 | 被引量 : 0次 | 上传用户：flyinghdl1

【摘要】

：

微博作为一种分享和交流信息的社交平台,自2009年国内公司新浪推出微博平台以来得到了快速发展和广泛的应用。截至2016年9月30日,新浪微博月活跃用户已达到2.97亿。微博信息

【作者】

：

范佳健

【出处】

：

安徽大学

【发表日期】

：

2017年期

【关键词】

：

微博评论分析中文分词文本表示词项聚类文档聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

微博作为一种分享和交流信息的社交平台,自2009年国内公司新浪推出微博平台以来得到了快速发展和广泛的应用。截至2016年9月30日,新浪微博月活跃用户已达到2.97亿。微博信息具有信息交互简便快捷、随时随地传播信息、信息发布门槛低、传播方式呈裂变等特点。作为一个新闻发布平台、新闻发生地和信息交互平台,微博在人们了解信息、发布信息、信息交流等日常网络行为中充当越来越重要的角色。但相比之下,微博信息具有简短、数量庞大、内容复杂的特点,传统的数据挖掘方法在对该类型信息分析时面临诸多挑战。为此,本文利用了文本聚类方法,针对微博评论信息的特点并根据微博热点事件的大量用户评论展开分析,探索出一套以文本聚类为基础的微博评论信息处理的可行方法。目的在于将内容相近或相似的评论信息聚集成簇,了解社会对热点事件的不同观点,能够进行有效的舆情分析与检测,对于特定事件还能让领导层更好的了解民意,有助于进行决策改革。本文主要工作如下:首先分析了微博文本信息的特点,研究了常用的文本信息分析方法,阐述了聚类分析技术,包括聚类的定义、形式和相似度量方法。其次,针对微博信息特点和信息处理方式,分析了微博评论信息的聚类步骤,包括文本预处理、微博文本表示以及聚类分析。在文本预处理阶段,讨论了中文分词、停用词过滤和文本去噪等,在文本表示阶段,讨论了多种文本表示方法和特征项的权重表示方法,在文本聚类阶段,分析了聚类的不同方法并描述了多种算法。通过上述讨论分析,确定了本文采用的具体分析方法。接着利用R软件进行文本去噪并通过jiebaR包完成中文分词、停用词过滤等预处理工作。在分析比较了多种文本表示方法之后,本文采用向量空间模型表示微博评论文本。而在选择聚类算法时,采用了广泛使用的k-means算法,但考虑到k-means算法对初始点和离群点敏感,k值需要人为设定的缺点,增加了 k-medoids算法。这是因为k-medoids算法和k-means算法相似,但对离群点具有鲁棒性,并且在R软件的pamk函数中k值不需要人为设定。在具体的算法实现过程中,分析了k值和初始点的不同对聚类结果的影响,探讨了R语言实现k-medoids算法和k-means算法的途径。利用词云和词项网络等方式将微博评论信息进行可视化。本文抓取4月26日央视新闻发布的关于首艘国产航母下水的微博的4000多条评论,对评论集进行数据预处理和文本表示之后,对结构化数据进行开展词项聚类和文档聚类。通过实验发现,不同的随机种子的选择对聚类结果影响不大,由于本文数据量并不大,所以算法运行时间上并没有明显差异。在利用系统聚类法对特征项进行词项聚类时,采用离差平方和法与最大距离法的系统聚类结果较好。利用k-medoids聚类分析得到的结果显示其最佳聚类结果簇个数为2,但是其平均阴影值为0.69,表明两个个簇之间的划分较好。由于本文采用基于词典的分词方法和空间向量模型,特征项之间的语义联系弱,使得聚类结果不够合理。

其他文献

全国首创黄海冷水团三文鱼养殖成功

<正>2017年全国黄海冷水团养殖三文鱼初获成功,我国第一艘养殖工船"鲁岚渔61699"起航。2017年5月,全国首创黄海冷水团养殖三文鱼在岚山获得成功,试养在近海海洋牧场的三文鱼

期刊

黄海冷水团三文鱼冷水鱼类

编织“无缝”的社会保障“安全网”

当今社会,无论在发达国家还是在发展中国家,社会保障都是一项为人们所普遍接受的最为重要的社会经济制度.这项制度大至影响民心向背、社会稳定,甚至政权更迭,小到事关百姓的

期刊

社会保障体系中国农民工失业人员就业结构社会福利

机遇与坚守——科技发展影响下的雕塑艺术研究

在当代的社会科学学术研究中,艺术逐渐成为一门具备极强实用性与欣赏性的科目,并在世界各地都受到了非常广泛的关注。在目前的雕塑艺术中,科技解放了人们的双手,使得平常人也

期刊

当代科技影响雕塑艺术研究

为工艺造物注入灵魂

“形而上者谓之道,形而下者谓之器。”(出自《周易·系辞》)这句话是众所周知的,向来被认为是我国最朴素的哲学论断,也是关于艺术或者工艺美术创作最准确的表述。这一朴

期刊

工艺灵魂造物物质层面美术创作精神层面形而上“器”

传承与创新:中国玉雕艺术的当代表达

中华传统文化内涵丰富,源远流长,玉雕艺术在其中占据了重要的部分。作为传统文化的一部分,玉雕艺术传承千年,历经波折。随着文化的不断发展丰富,玉雕艺术的内涵也得到不断丰

期刊

玉雕传承创新

玉石雕刻的艺术之美研究

中国的玉石雕刻艺术源远流长,从新石器时代开始距今已经有近七千年的历史。玉石雕刻作品不仅仅是雕刻工艺的展现,它还蕴含了悠久的历史文化。在现代社会,玉石雕刻正以一种全

期刊

玉石雕刻艺术美学研究

甲硝唑联合羟氨苄青霉素对侵袭性牙周炎患者龈沟液中MMP-1、MMP-8和TIMP-1水平的影响

对40例侵袭性牙周炎(Ag P)患者(对照组)只行龈下刮治和根面平整术(SRP),对38例Ag P患者(研究组)在行SRP基础上给予甲硝唑联合羟氨苄青霉素口服7 d。分别于治疗前、治疗后3个

期刊

甲硝唑羟氨苄青霉素基质金属蛋白酶-1(MMP-1)基质金属蛋白酶-8(MMP-8)基质金属蛋白酶组织抑制物(TIMP-1)侵袭性牙周炎(AgP)

儿童户外游戏场地的安全性研究

儿童具有游戏的天性,他们常常通过游戏来了解自然、增长见识,进而促进身心的协调发展。但是由于缺少户外游戏空问,儿童的健康成长受到一定的影响。本文通过调查研究,分别对天

学位

儿童户外游戏场地安全性

浅谈玉雕造像艺术的“禅意”与人文精神

在艺术领域里,玉雕作品与传统文化结合紧密,和佛禅文化的发展传承也有极深的历史渊源。作为玉雕师,在当下的时代潮流中应准确把握住玉雕作品本身的人文精神与禅意境界,创作出

期刊

玉雕意境人文

环境监测质量管理的重要性及其实施策略

随着生活水平的不断提升,人们对周围生活环境的要求也越来越高,社会对环境监测质量管理的要求也随之增加。而如何提升环境监测质量管理的效率为社会的环境治理工作做出贡献,是值得探索和思考的问题。

期刊

环境监测质量管理策略研究

微博评论信息的聚类分析

与本文相关的学术论文