基于UGC的情感多标签分类的研究与应用

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:rgr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,电子商务和社交平台上产生和积累了大量的用户自创性文本信息(User Generated Content,UGC)。高效地分析处理、挖掘UGC文本数据,可以很大程度地帮助企业或商家进行产品反馈和调研,具有极大的商业和学术价值。目前有关细粒度多标签情感分析方向的研究工作相对较少,并具有较多难点。本文提出了基于循环神经网络的层次化多输入输出情感分类模型(Hierarchical Multi-Input and Output Model,-HMIO).,同时考虑文本的语义和语法信息,并引入辅助标签以提升网络层权重的学习能力。此外,受Hinge损失函数的启发,本文提出了松弛性间隔损失函数(Relax Margin Loss,RMG),有效地减少多标签模型的过拟合问题。在特征表示层,本文创新性地提出了基于词性的word-POS注意力机制,充分利用文本情感表达的词性信息。同时,基于词性的注意力机制更容易捕捉情感词组合的语义表达,帮助模型更快地收敛到较高水平。实验结果验证了HMIO层次模型和word-POS注意力机制的有效性。本文改进了C&W词向量模型,提出了融合情感词典的情感极化词向量学习模型(Sentiment-Polarized Word Embedding,SPWE)。作为弱监督模型,SPWE模型能够更好地差异化相同词法下情感词的向量表示,且更容易扩展到大规模语料上进行词向量学习。实验结果表明,SPWE学习词向量结果能够更好地提升情感分类模型的性能。
其他文献
目的初步探讨高通量测序技术在自然流产绒毛遗传学分析准确性和异常核型检出率中的作用。方法采用高通量测序和生物信息分析技术,选取常规染色体核型分析结果为46,XY的自然流
【正】差旅费是行政事业单位公务活动的一项主要支出。为了加强管理,严格控制支出,保证工作需要,各级政府本着勤俭节约的原则制定了相应的差旅费管理规定,明确了各项费用的开
自改革开放以来,伴随我国经济的全面复苏与快速发展,到如今,我国经济已经完成融入全球金融体系之中,成为全球经济的重要的组成部分。与此同时,我国中小企业也伴随国家经济的
近年高考中,元素周期律与无机推断的难度又呈大幅上升趋势。在解决这类问题中,通过倡导学生注意细节、合理猜测,这两种策略在理科的学习中能够更灵活、更有效地解题。
支气管哮喘(简称哮喘)是一种常见的由多种炎症细胞,炎症介质及细胞因子相互作用引起的慢性气道炎症性疾病。近年来哮喘的发病率呈上升趋势,其发病机制及防治措施成为研究的热点。
基于西瓜农户实地调研数据,利用带罚函数的二项Logistic模型,对瓜农扩大西瓜种植决策的影响因素进行实证分析。结果表明:农户西瓜种植决策行为很大程度上取决于农户的风险态
对于智慧工厂来说,其主要特点体现在互联互通,这也在一定程度上突破了传统工业发展的局限性。同时,智慧工程也已经成为了世界工业化发展的主要趋势,物联网技术为智慧工厂的快
利用非竞争(进口)型投入产出表建立了碳排放泄露模型,将一个国家或地区的碳排放总量分解为消费、投资、出口引起排放量及进口避免排放量等部分.并推算了中国主要年份非竞争型
以CNKI的“学术期刊网络出版总库”为统计源,对国内1 3所石油高校图书馆馆员2007—2016年发表的论文进行统计。采用文献计量学方法,分析科研论文数量、核心期刊总发文量、h指数
纵观中国古代山水画史,都与意境有着较为紧密的联系:意境是山水画的灵魂,是中国山水画的艺术传统。创作山水画的重要问题就是赋予画面以灵气,即意境的创造;而如何创造出情景交