论文部分内容阅读
随着互联网技术的飞速发展,移动互联网也得到了广泛的普及。社交媒体作为互联网的主要表现形式之一,已成为人们生活中重要的组成部分。其广泛的用户参与性特征,使得针对社交媒体的研究成为热门领域。然而目前针对社交媒体的研究普遍存在大而广的特征,而现实社会中的用户存在社会阶层的细分,不同的社会阶层会表达不同的观点和诉求。我们认为基于社交媒体进行精细化的社会阶层研究,可以实现客观存在的社会阶层及不同阶层的观点的精细化分析。而如何准确有效地分析社交媒体中的用户所处的社会阶层,及不同社会阶层对待产品、事件等事物的情感、态度,对于精细化的舆情监控、市场营销、谣言控制等等领域都有非常重要的现实意义,在推动国家经济发展、维护社会安定以及社会的整体进步等方面也起到非常积极的作用。本文旨在通过设计针对社交媒体大数据中用户的职业、位置特征的社会阶层分析模型及情感实体等方面的分析方法,实现针对社交媒体大数据背景下精细化的社会阶层情感分析。本文研究了社交媒体大数据背景下的社会阶层情感分析的三个关键问题。包括基于职业的用户社会阶层分析研究、基于位置的用户社会阶层分析研究、基于社交媒体的用户情感实体分析研究。主要的研究内容及创新点概括如下:1、提出一种基于社交媒体职业特征的社会阶层分析模型。该方法设计基于职业的社会阶层划分模型,通过构建组合特征提取模型建立职业词库,优选合适的分类器进行职业分析,能够有效提升对微博用户阶层识别的准确率。在此过程中,首先依据现有社会阶层划分理论及习近平提出的新社会阶层理论,设计基于职业的社会阶层划分模型,并设计组合开方检验和TF-IDF算法,建立职业特征词库提取的混合模型,针对各社会阶层中的代表职业用户博文数据,建立职业词库。利用职业词库,通过词频统计算法、空间向量模型的余弦相似度算法、基于欧氏距离的k-means算法及SVM等算法进行职业分析,并对比得出结果的准确率、召回率以及F值,得到SVM算法最适合进行职业分类。针对SVM算法,通过调整输入参数c和g,得出参数和分类准确率的关系,并获取到具有最高准确率的c和g,得出应用于微博用户职业分析中的最优分类算法,依据基于职业的社会阶层划分模型最终获得用户的所属阶层。2、提出一种基于社交媒体位置特征的社会阶层分析模型。该模型设计了基于经济地位的社会阶层划分模型,并综合地标图片语义分析、博文文本和社交网络分析的位置推断模型RTP-LI。通过对用户的社交媒体数据进行多维度分析,包括用户社交关系,博文文本内容,博文图片等数据,建立起适合于分析短文本的本地词典,再引入较为精细准确的搜狗词典加以补充,构成基于用户生成文本位置推断时的一个综合词库,再通过地标图片语义识别的结果进一步对位置分析加以修正,降低了由于文本的发散性所造成的误差。针对文本内容整体的发散性,采用基于用户生成内容的推断和基于对用户社交网络的统计分析相结合的方法解决。地理位置信息取决于多方面的要素,本文结合了基于文本,图片以及社交网络的方法,极大的提升了位置推断的准确率。最终依据用户所属的地理位置,进行用户的社会阶层推断。3、设计了一种混合的情感中文实体识别模型。该模型通过构建情感分析模型,获取博文的情感倾向,并设计基于三层神经网络的中文命名实体识别模型,识别出情感背后的实体,进而推测不同社会阶层的情感及形成该情感的实体因素。在此过程中,首先设计基于支持向量机的情感分析模型,获得微博的情感倾向,并对该博文中的特征词进行情感意义的标识;再设计基于三层神经网络的算法模型,并将人民日报语料库进行预处理,生成中文命名实体的词向量词典和训练矩阵,对三层神经网络模型进行训练;最终利用训练好的模型对带有情感倾向的博文进行中文命名实体的识别,以获得带有情感意义的中文命名实体。