面向在线社交媒体的文本分类研究与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:st841004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网的迅猛发展,自然语言的处理(NLP)成了从互联网上获取知识的重要手段。随着互联网的普及,出现了很多“手机族”“拇指族”,在线社交媒体平台成为人们生活变得密不可分的一部分。社交媒体上的文本数据量巨大,通过自然语言的文本分类技术,可以将情感分析聚焦在关注的主题领域内,从而进行舆情判断。课题主要解决了无监督学习下的社交媒体文本内容的主题聚类和有监督学习下的情感极性分析。首先对社交媒体上公众人物的文本内容进行主题区分,筛选研究关注的主题,然后在相应主题下分析普通用户的评论数据,通过情感分析,得到大众的舆论倾向。首先,提出了基于Word2Vec的启发式主题聚类。通过ODP(Open Direc-tory Project)的分类标准,设置类别中心词,使用Word2Vec模型计算词向量,然后利用ODP的先验信息,指导主题聚类。这样即可以避免传统无监督学习的聚类方法得到的类别标签语意不够明确、分类结果难以理解的问题,又可以避免有监督学习的分类方法对大量标注数据的需求,从而适用于当前社交媒体上海量数据的内容主题分类。其次,面向社交网络用户表达的情感极性存在多样性的特征,针对当前多分类方法存在的不足,提出一种基于集成学习的多分类模型,在有标注的数据集上,训练多种不同类型的分类模型,然后采用分层和集成的方式,得到分类结果,以提高情感极性分析的精度。
其他文献
本文以奥威尔的政治寓言小说Animal Farm为研究对象,采用语料库手段对傅惟慈和孙仲旭在翻译英语复数第一人称代词“we”和“us”时所采用的翻译策略与方法进行分析,旨在总结
随着5G和VR(Virtual Reality)的发展,基于全景内容的应用受到广泛关注。研究用户对于全景内容的感知和情绪反应对多媒体处理和用户体验质量评估至关重要。眼球的运动特征在不
动态磁共振成像能够对空间立体或动态变化部位进行高对比度成像,且无电离辐射等放射性危害,应用范围比一般静态磁共振成像更广。但是,由于缓慢的数据采集和成像速度制约着其
骨组织的磨削操作广泛应用于各类外科手术,这类手术难度大,对医生的技术要求高,往往需要外科医生在手术前进行大量的训练。利用虚拟现实技术创造手术模拟器,可为传统的外科训
《生命之光闪耀:鲍勃·迪伦的蜕变》,作者为安德鲁·麦卡伦。他是纽约市三—学院宗教和哲学系主任。该书由牛津大学出版社于2017年出版,他从心理学角度撰写了这本传记。这本书围绕着鲍勃·迪伦生命中的三个重要转折点而展开,正是这些转折点对他的音乐产生了影响。该报告根据彼得·纽马克的语义和交际翻译方法,探讨了翻译项目中所采用的策略和技巧。译者选择了一些典型的例子来说明在词汇和句法层面所采用的策略。本报告由四
地震物理模型超声成像技术是一种在地震波勘探中常用的实验模拟研究技术。通常是将油气储藏地层结构按照1:102~1:107的比例缩小的模型结构,用来研究地震波传输规律及理论推演
随着检测技术的发展,X射线无损检测现在已经成为了一项重要的检测技术,它具有穿透性强,成像信息丰富等优势,无论是在工业器件,还是在医疗设备上都有很多的应用。然而由于检测
目的探讨Nup88基因在前列腺癌组织中的表达状况,以及对前列腺癌DU145细胞在体内外生物学行为的影响,进而判断该基因能否作为靶向诊治前列腺癌的潜在靶点,为治疗去势抵抗性前列腺癌提供新的方向。方法实验分三个阶段进行,首先判断Nup88基因在前列腺癌中的表达及其相关性。采用qRT-PCR和Western blot检测前列腺癌DU145细胞和前列腺正常上皮RWPE-1细胞中Nup88基因的表达水平,同
保护好计算机网络信息系统,构建可靠的信息安全防护体系,已成为信息社会的重要课题。近年来,将机器学习的方法应用到入侵检测技术研究中受到越来越多的关注。基于机器学习的
随着技术和硬件的进步,数据收集变得更加容易,数据库规模越来越大,复杂性越来越高,人类面临的一大问题就是如何在复杂的高维数据中得到有用的信息。众所众知,人眼能识别的可