基于词典与改进信息增益的微博情感分析

来源 :安徽理工大学 | 被引量 : 5次 | 上传用户:jmfxuexi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与网络技术的发展日新月异,社交媒体与网络平台已然成为人们获取、发布、共享、传播信息的载体。这些信息对于政府与企业进行网络舆情监控、电子商务等都具有重要的社会意义与商业价值。本文以新浪微博平台中的人们所发布的语料信息为研究对象,重点研究分析了情感分析任务中基于情感词典与基于机器学习的两种方法。主要研究内容如下:1.针对现有的情感词典由于对网络新词的涵盖率较低而无法应用于微博领域的情感分析问题,本文搜集了当前现有的一些基础情感词典,网络情感词典与表情符号库,并在去重后构造了基础综合情感词典。针对SO-PMI算法中共现窗口大小与语料库规模对算法效果产生不利影响等问题,本文提出了使用距离互信息与古德-图灵平滑方法来对SO-PMI算法进行优化,并利用改进后的SO-PMI算法来扩展基于微博领域的情感词典。通过实验对比综合基础情感词典、基于传统SO-PMI算法扩展的情感词典、基于拉普拉斯平滑的SO-PMI算法扩展的情感词典以及本文所构建的中文微博综合情感词典,使用本文所构建的情感词典进行情感分析的效果皆好于其他三种情感词典。2.研究分析了常用的特征选择算法并着重研究了信息增益算法。针对传统信息增益算法中没有考虑特征项在类内与类间分布情况以及没有平衡正相关特征项与负相关特征项的比例等的问题,提出了类间集中度与类内分散度并以此来提高特征项对类别的区分效果。借鉴卡方统计量的方法求两者最大值以此来将类间集中度与类内分散度的计算应用于整个语料库,并引入比例因子来降低负相关特征项所带来的不利影响,提高了正相关特征项的比例。通过实验对比基于传统信息增益算法与本文所改进的信息增益算法,利用本文所改进的信息增益算法在微博情感分析中的效果好于传统信息增益算法。3.本文将整合成的中文微博综合情感词典与改进的信息增益算法结合来对特征选择这个过程进行优化。该方法结合了两者的优点,对特征项的降维效果明显好于两者单独使用的情况。图[16]表[10]参[53]。
其他文献
在教学设计中,对于问题的设计很关键。一个优秀的问题,可以引起学生思考,活跃课堂气氛,也可能引发学生质疑,发掘新的内容。本文从问题的目的指向性、问题的意义含量、问题的
中国陆相地层岩性成分较为复杂,岩性波阻抗值常呈多极分布。水动能强度的急剧变化、高频率的水进水退等沉积背景造成了薄互层广泛发育的特点。储层间干涉现象普遍存在,直接影
在全球经济浪潮中,就业岗位在不断地减少,导致失业问题的不断加剧。劳动者在失业之后丧失生活收入,极易引发其心绪不稳乃至社会犯罪,影响社会经济的正常发展。此时需要国家出
大豆(Glycihe max L.)是重要的粮食和油料作物。然而,干旱、盐和低温等胁迫因子对大豆的生长发育和产量产生了严重的影响,也给大豆的农业生产造成了巨大的损失,因此,培育和种
齐鲁石化股份有限公司烯烃厂采用电渗析工艺深度处理循环水的排污水,使其回用到循环水作为补充水,减少排污量.经过一年多的运行,收到了良好的社会效益和经济效益.
美国新闻媒体网站Buzz Feed通过“快消型”新闻之路,成为媒体行业的领头羊。Buzz Feed依靠标题包装、短小视频、轻质内容抓住了用户,并通过技术驱动、社交广告、病毒传播实现
宪法学研究需要理论和实践方面方法论的支撑,我国宪法学者已经开始重视宪法学研究方法论的自觉运用,但是结合宪法学的研究背景,方法论的自觉运用还面临现实困境。域外经验研习、
[目的/意义]学科资源建设是图书馆学科服务的重要组成部分,是提升学科服务质量的基础和前提,是开展学科服务工作的基本保障。图书馆所建设的学科资源是否得到有效的揭示与学
长期以来,人们关于推定的认识一直处于模糊状态,学界对推定的理解存在诸多争议,各派学说也有自说自话之嫌。以往的证据法学者大多仅从证据法的角度对民事推定进行分析,这种单
目的研究锌离子对转化生长因子-β1(TGF-β1)诱导的肾小管上皮细胞转分化(EMT)的影响。方法常规培养肾小管上皮细胞、传代、分组:①正常对照组;②TGF-β1组(10ng/ml TGF-β1