基于词类和搭配的微博舆情文本聚类方法研究

来源 :第六届江苏省计算机大会 | 被引量 : 0次 | 上传用户:guanjianjun1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  微博是近年出现的新型互联网信息交流平台,它具有主题分散、体量短小、文体自由等特性,它能对社会产生巨大的影响,所以信息监管部门和商业企业对基于微博信息的舆情分析都有迫切需求.提出基于搭配的文本聚类新方法,该方法先进行微博文本预处理,然后利用词类模型进行自动抽取有效搭配,最后基于有效搭配的模型进行文本聚类.实验证明利用词类文本聚类方法比传统文本聚类方法性能提高6.3%,而本文方法比利用词类文本聚类方法性能提升了16.8%,结果显示了本方法的有效性.
其他文献
  本文将基于小生境和交叉选择算子的粒子群算法(NCSPSO)改进后与人工鱼群算法(AFSA)混合,提出了一种改进的NCSPSO-AFSA 混合算法优化支持向量机(SVM)参数。并与AFSA 算法,
  龙芯处理器在国产处理器市场占有重要地位。由于龙芯采用的是MIPS 指令集且主要支持Linux 操作系统,然而目前在该平台上的应用软件还相对匮乏,且很多传统Windows 软件也无
会议
  剔除无关语及语料聚类对提高自然语言理解的质量具有重要意义,也是自然语言理解的预处理关键技术。鉴于无关语在语料中存在明显的特性,本文通过种子无关语推导出强无关语,并
  本文分析了软件移植过程中常见的各种风险因素,探讨这些风险因素对于软件移植的影响,以及在实际软件移植工作中,如何防范、减低风险.文章以JSP 平台到.NET 平台转换为例,重点
  车联网(Internet of vehicles,IoV)被认为是物联网中最有可能率先突破应用的一个重要分支,成为目前研究的重点和热点。其中,车辆节点的定位和位置感知技术是车联网的技术
  本文主要研究了多视角聚类问题。多视角学习是目前机器学习和模式识别领域的研究热点。围绕如何利用不同视角所包含的丰富信息来提高聚类性能,已经产生了很多不同的算法。
由于传统砂浆存在着品种单一、性能不良的缺点,已经越来越不能适应实际工程的需要,因此,应加快建筑砂浆的专业化进程,大力发展商品砂浆就显得尤为重要。其中,干粉砂浆以其优良的质量品质、便捷的施工方法和多功能的效果等优势已在欧、美、日等国家迅速发展和广泛应用。目前干粉砂浆技术在我国尚处于起步阶段,主要开发了以粉煤灰为掺合料的干粉砂浆。本文以常用的DM5.0砂浆为主要研究对象,研究了掺有保水增稠材料的粉煤灰
  传统的人脸识别方法需要大量的训练样本。然而在某些特殊场合,对于每个人只能获取一幅图像作为训练样本,这类问题通常被称为单样本人脸识别。传统方法在处理单样本人脸识别
会议
吸收式热泵适用于低品位热能的回收利用,它采用热能驱动运行,消耗电能极少,对于能源综合利用,回收废热,保护环境都有很重要的意义。本文重点研究了以溴化锂溶液为工质的第一
  属性约简是粗糙集理论研究的重要内容之一。在传统Pawlak 粗糙集模型中,随着属性数量的单调变化,下、上近似集也单调变化。然而,在决策粗糙集模型中,随着属性的单调增加,下、