【摘 要】
:
微博是当前国内最流行的社交平台之一,微博文本的情感分析有助于进一步分析实现其媒体价值,然而,微博数据庞大且冗余性高,使得文本特征具有较高的稀疏性和局限性,在小样本数据分析上情感判断结果并不理想。因此,提出一种基于支持向量机分类模型的微博数据情感分析方法,首先通过weibo Spider爬取微博数据,进行人工标注构建微博文本数据集,然后联合优化TF-IDF算法和传统词袋,提出一种基于关键词的词袋模型
论文部分内容阅读
微博是当前国内最流行的社交平台之一,微博文本的情感分析有助于进一步分析实现其媒体价值,然而,微博数据庞大且冗余性高,使得文本特征具有较高的稀疏性和局限性,在小样本数据分析上情感判断结果并不理想。因此,提出一种基于支持向量机分类模型的微博数据情感分析方法,首先通过weibo Spider爬取微博数据,进行人工标注构建微博文本数据集,然后联合优化TF-IDF算法和传统词袋,提出一种基于关键词的词袋模型,获取文本特征矩阵以解决微博文本高稀疏、高冗余的问题,最后构建高斯核的支持向量机分类器实现对微博数据的情感分析。实验结果显示,对比朴素贝叶斯、决策树等方法,提出的方法可获得较高的准确率,且在小样本数据上有明显优势。
其他文献
针对公路养护中公路病害处理的问题,提出公路养护工程中不粘轮乳化沥青黏层的应用研究。通过对公路养护工程中不粘轮乳化沥青黏层作用的分析,提出了不粘轮乳化沥青黏层在公路养护工程中的应用方法建议。通过实验验证,不粘轮乳化沥青的黏接层性能较好。随着温度的升高,各胶层的抗拉强度逐渐降低,不粘轮乳化沥青的拉拔性能较优,可以提升道路性能,减少公路病害,考虑到不粘轮乳化沥青比环氧沥青价格低廉,因此值得在公路养护工程
试验旨在研究贮存时间和容器对香茅精油挥发性成分的影响。采用水蒸气蒸馏法提取精油,分装于2种不同精油瓶中贮存,通过顶空-气相色谱-质谱联用技术对不同贮存时间的精油进行挥发性成分分析。结果显示,随着贮存时间延长,内塞瓶香茅精油的挥发性成分数量逐渐增多,精油中的主要组分(萜类、单萜醛、(E)-柠檬醛和(Z)-柠檬醛)含量随贮存时间渐进性下降,非萜类物质含量显著增加。与提取当年(0y)相比,滴管瓶香茅精油
古代廉政故事蕴含深厚的民族特质禀赋和文化基因,是新形势下开展青年学生廉政教育的生动素材。要深挖廉政故事典型,总结提炼其精神实质。古代桂林廉政文化博大精深、源远流长,形成了以江头洲清官群像和状元榜为代表的为官为民系列廉政故事,是开展青年学生廉政教育的典型载体。在青年学生中讲好古代桂林廉政故事,有助于增强政德情感认同、筑牢理想信念根基、提升拒腐防变能力、正确应对时代考验。通过廉政故事讲道理、悟精神、启
新发传染病的频繁出现和迅速传播给全球公共卫生安全带来极大危害和挑战,医护人员临床专业技能精湛,但预防医学理论实践能力尚显薄弱,从预防医学角度改进临床专业新发传染病教学,提高临床医学生防治新发传染病能力势在必行。天津医科大学在临床专业本科生临床见习结束后尝试构建新发传染病防控课程,采用以问题为导向、以现场为中心讨论式、参与式教学方法,通过理论授课、以新发传染病典型案例为代表的讨论课和防控现场处置模拟
目的 分析结直肠癌手术患者住院费用的影响因素,为降低患者疾病负担提供参考。方法 收集北京地区2018年1月至2019年12月共10273例结直肠癌手术患者的住院相关信息,采用分位数回归模型,以住院费用的不同分位数为基准,划分为低、中、高三组分位费用组,描述解释相关变量对住院费用的影响。结果 住院年份、机构类型、年龄、住院天数及术后并发症对三个分位组的住院费用均有正向影响;使用中医药类治疗手段在三个
近年来,在国内经济快速发展和政策扶持的双重优势下,我国电商物流产业积极抓住机遇得到了快速发展。但随着日益激烈的价格战和快速升高的企业经营成本让不少物流公司陷入了―增量不增收‖的困境,因此,电商物流企业加强成本管理刻不容缓,也是物流企业实现降低成本提高效益的重要一步。本文选择SF物流公司作为案例探究的研究对象,把价值链理论和成本管理理论相结合,从价值链的角度对SF物流公司的成本管理展开深入研究。SF
当今新媒体的快速发展,对高校播音主持专业教学提出了更高的要求。在新的产业环境下,播音主持专业教学需要顺应时代发展要求,积极探索与产业融合发展的新模式,重新建构播音主持专业的培养模式、课程改革和创新发展体系,大力推动产教融合,才能培养出符合新媒体时代发展和社会需求的专业性人才。基于此,本文从人才培养模式、产教融合发展、课程体系改革、创新发展等方面入手,结合区域发展现状,探索高校播音主持专业与产业融合
近些年来,科技水平与制造工艺飞速发展,以计算机理论及硬件作为突破点的一系列创新研究方法不断被提出,关于深度学习技术的研究正如火如荼,对于计算机视觉任务,卷积神经网络表示图像特征的性能愈发优异,其在图像分类,图像超高分辨率,图像风格迁移,自动驾驶等问题中的应用表现突出。在电子显微镜学领域,由于硬件水平的提升,样品图像分辨率通常可以达到原子级别,科研人员利用电镜图像进行样品性能分析取得了重大进展,但采
考虑制造商的生产过程和运输商的运输过程都产生碳排放,建立一条由制造商、运输商与零售商组成的三级供应链,运用Stackelberg博弈和Nash博弈分析三级供应链在碳税政策下的最优碳减排、产品定价、系统利润与社会福利等关键指标的状态.讨论了四种情形:(1)碳减排领域和产品定价领域都不合作的无合作决策;(2)碳减排领域合作但产品定价领域不合作的局部合作决策Ⅰ;(3)产品定价领域合作但碳减排领域不合作的