基于语义及情感的微博分类等级判定方法研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:spirit_if
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的快速发展,微博成为了人与人之间交流的一种重要方式,微博让人们拥有自己的媒体变成了一件简单的事情。然而,作为公民自由发表言论的网络空间,我们可以发现与正式场合的言论相比,微博言论的随意性更强,主观色彩更浓,容易陷入无意识的自由表达情境之中,这也导致了微博内容良莠不齐。为了给微博用户提供一个更加正能量的空间,理应将正能量和负能量的微博加以区分。论文将从寻找微博态度的角度出发,利用聚类算法,对微博的语义和情感两方面分别进行聚类,再根据聚类结果对微博的分类等级进行判定,主要区分出积极、消极和中性的微博文本。研究内容包括以下两个部分:首先,由于微博短文本表达随意,表现形式不规范的问题,先对原始的微博文本进行预处理,预处理的主要工作有分词,去除停用词,根据情感词典选出情感词,再利用词性选择工具在剩下的词中选出名词、动词和形容词作为语义词。接着对特征词等级进行标注,标注的等级分为3等,分别代表了消极、中性和积极。最后使用了应用较多且效果较好的向量空间模型表示方法对微博短文本进行建模表示。为了对微博文本的语义和情感分别进行聚类,需要选择合适的聚类方法,考虑到基于密度的聚类算法具有可以在含有“噪声”的空间数据集中发现任意形状的优点,因此论文选择对传统的从一点开始扩展簇的DBSCAN算法加以优化,提出了从多个点同时开始扩展簇的MPSCAN算法,从而改善DBSCAN算法时间性能低效的缺点,加快聚类算法的运算速率。其次,对聚类后得到的每一个类采用了基于文档频的特征词选择,相似词汇合并,以及一种求加权平均值的量化处理方式,使其对应一个具体的值,再根据自定义的规则最终得到文本的分类等级。实验中,在数据集里抽样选取了一部分,通过对比人工判定的结果和论文所提方法得到的结果进行校验,校验后发现相较于积极和中性的文本分类等级的判定,消极文本的判定效果不够理想,针对此现象进行了相应的分析。针对论文提出的微博分类等级判定方法,目的是希望可以大批量的对微博文本的态度倾向进行区分,同时不再单一地考虑微博的情感词,将语义词的态度倾向也加以融合进行判定。这种方法的提出旨在为微博平台数据的筛选起到辅助参考作用。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
村妇代会主任工作报酬一直是吉林省东丰县妇联组织建设中的难点问题。去年年初以来,东丰县妇联加大工作力度,积极争取政策,创新工作方法,完善工作机制,使全县229个村的妇代会主任
党的十七大确立了全面建设小康社会的新任务,明确提出人人享有基本医疗卫生服务的目标,促进妇女健康是实现这一目标的重要内容。一、活动背景妇女健康是社会公共卫生工作的重点
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
依托共享经济衍生出的行业数量在增加,伴随而来的问题也在变多,其中共享单车是共享经济模式下最为瞩目的。本文站在财务管理的角度,介绍了其盈利的模式、存在的困境并提出改
培养学生社会适应能力是教育改革中的重要任务之一。高职体育教学是高职教学的重要组成部分。文章从高职体育教学对学生社会适应能力培养的必要性入手,从改变体育教学氛围、
本文给出了一种大学数字化校园中的无线自适应短波通信中用前向纠错方式(FEC)进行戈莱码(GOLAY)的编码与纠错译码的软件实施过程,描述了短波信道的衰落与误码率的关系。讨论了作为
目的初步观察服用利伐沙班10天疗程与35天疗程的预防效果差异。方法此项前瞻性随机对照实验。共入选患者70例。被随机分为口服利伐沙班疗程为10天的A组和疗程为35天的B组。术
随着社会经济的不断发展,市场经济体系也随之完善,工程监理企业人力资源管理工作已得到了大家的重视。但是,从目前的情况来看,工程监理企业人力资源管理工作仍然存在着一些问
作为露天矿产主要的采装设备之一,大型矿用挖掘机因其斗容量大、开采效率高等特点得到了广泛的应用。然而,恶劣的工作环境和复杂的受载情况等因素严重制约着挖掘机可靠性和安