论文部分内容阅读
随着互联网和信息技术的快速发展,微博成为了人与人之间交流的一种重要方式,微博让人们拥有自己的媒体变成了一件简单的事情。然而,作为公民自由发表言论的网络空间,我们可以发现与正式场合的言论相比,微博言论的随意性更强,主观色彩更浓,容易陷入无意识的自由表达情境之中,这也导致了微博内容良莠不齐。为了给微博用户提供一个更加正能量的空间,理应将正能量和负能量的微博加以区分。论文将从寻找微博态度的角度出发,利用聚类算法,对微博的语义和情感两方面分别进行聚类,再根据聚类结果对微博的分类等级进行判定,主要区分出积极、消极和中性的微博文本。研究内容包括以下两个部分:首先,由于微博短文本表达随意,表现形式不规范的问题,先对原始的微博文本进行预处理,预处理的主要工作有分词,去除停用词,根据情感词典选出情感词,再利用词性选择工具在剩下的词中选出名词、动词和形容词作为语义词。接着对特征词等级进行标注,标注的等级分为3等,分别代表了消极、中性和积极。最后使用了应用较多且效果较好的向量空间模型表示方法对微博短文本进行建模表示。为了对微博文本的语义和情感分别进行聚类,需要选择合适的聚类方法,考虑到基于密度的聚类算法具有可以在含有“噪声”的空间数据集中发现任意形状的优点,因此论文选择对传统的从一点开始扩展簇的DBSCAN算法加以优化,提出了从多个点同时开始扩展簇的MPSCAN算法,从而改善DBSCAN算法时间性能低效的缺点,加快聚类算法的运算速率。其次,对聚类后得到的每一个类采用了基于文档频的特征词选择,相似词汇合并,以及一种求加权平均值的量化处理方式,使其对应一个具体的值,再根据自定义的规则最终得到文本的分类等级。实验中,在数据集里抽样选取了一部分,通过对比人工判定的结果和论文所提方法得到的结果进行校验,校验后发现相较于积极和中性的文本分类等级的判定,消极文本的判定效果不够理想,针对此现象进行了相应的分析。针对论文提出的微博分类等级判定方法,目的是希望可以大批量的对微博文本的态度倾向进行区分,同时不再单一地考虑微博的情感词,将语义词的态度倾向也加以融合进行判定。这种方法的提出旨在为微博平台数据的筛选起到辅助参考作用。