基于word2vec和SVMperf的网络中文文本评论信息情感分类研究

被引量 : 14次 | 上传用户:hjkl123lkjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着web2.0技术的产生和飞速发展,尤其是诸如电子商务、博客、论坛、微博等许多新兴互联网平台的出现,越来越多的用户习惯于在这些网络平台上发表自己的观点,表达自己的感受。而随着网络用户量的不断增加,产生的用户评论数量也呈爆炸式增长,仅凭用户来翻看这些评论以获取有价值的信息,变得不切实际。因此,一个新的用来帮助用户对海量评论进行分析甄选,从中抽取出有价值的信息的研究方向应运而生,即“情感分类”。在情感分类研究中,用的最多的也最有效的方法是基于机器学习的方法。在基于机器学习方法的情感分类研究中,最重要的环节是有效特征的提取。在前人的研究中,往往只考虑了浅显的词汇特征和句法特征,而忽略了对于隐含的语义特征的提取。针对此问题,本文主要进行了以下三个方面的研究:1)本文利用word2vec可以获取语义联系的特性,首先对文本语料库进行了相似特征聚类的实验,将语料库中描述同一个产品特征的词语进行了聚类,方便后续的情感分类研究工作可以获得良好的分析总结。实验结果表明,利用word2vec可以很好地将语料库中的相似特征提取出来,并聚合为同一产品特征簇。2)本文提出了基于word2vec和SVMperf的中文文本情感分类研究方法。方法利用word2vec的特性,将文本中的词汇表示为向量空间中的高维向量,通过对这些词向量进行余弦相似度的计算,从而获得词汇之间在语义上的相似度,然后将这些向量作为语义特征,用SVMperf分类模型进行训练,得到最终的分类结果。实验结果表明,此方法可以获得较好的分类结果。3)为了进一步提升分类的正确率,本文又在上述情感分类方法的基础上,在提取特征时,考虑了否定词、程度词和转折词等上下文结构特征,再结合语义特征,一起作为有效特征用SVMperf训练和测试。实验结果表明,结合了上下文结构特征的情感分类方法可以获得更佳的分类效果。最后,本文将情感分类算法与具体应用相结合,开发了一套股票分析系统。系统主要通过对股民评论的情感指数与股票价格走势的分析对比,判断两者有无相关性。
其他文献
目的评价丙氨酰谷氨酰胺强化的肠外营养在重度急性胰腺炎(SAP)患者中防治肠功能衰竭及改善营养状态的作用。方法 48例SAP患者随机分为治疗组(25例)和对照组(23例),两组均给予
分析了湛江市区地下水水位持续下降的原因,指出由此引发的地面沉降、水质恶化和地下水资源枯竭等危害,并提出了防治地下水位下降的对策。
"文学写作"是人类特殊的精神活动.千百年来,人类创作的文学作品浩如烟海,但对于"文学写作"这一复杂精神现象的理解和探求仍很肤浅.从"生命形式"这一独特角度,结合一些作家、
介绍了尿素生产中DREXELBROOK公司生产的射频导纳液位计的组成、结构、原理及应用,通过应用实例分析了射频导纳液位计损坏的原因,并得出它不适合在尿素装置高温、高压的工作环
文章研究了湛江市50年来的地下水流场变化特征,得出以下结论:市区中、深层承压水经过近50年的集中开采.已形成了以人工开采区为中心的区域水位降落漏斗;浅层水一直未作为集中供水
一、概况摆线类减速器、油泵和油马达,是我国六十年代发展的产品。由于该类产品具有体积小、效率高、寿命长、结构简单和传动平稳等优点,产品的产量增加很快,仅摆线减速器一
随着各类在线网络购物模式与多样化在线支付功能以及移动互联网的快速发展,我国商业银行从2000年正式开拓手机银行业务。手机银行以其便利高效的优势逐渐开始替代传统的网络
火炮发射弹丸时,发射药瞬时剧烈燃烧产生极大的膨胀力、弹丸与炮膛相对运动产生的摩擦力以及火炮自身的惯性力作用会导致炮口振动。这种振动响应将直接影响火炮对打击目标的
20世纪80年代以前,商业银行主要是以单一、局部的管理方式来管理其所面对的金融风险。90年代以来,随着金融技术的进步,经济全球化趋势的迅速蔓延,两个非常严峻的现实摆在了银行风
传统“旋转电机+滚珠丝杠”传动模式的精密工作台满足不了现代精密自动化加工的需要,静压气浮导轨、直线电机伺服驱动以及先进控制策略的完美结合,已成为高速高精度自动化加