基于评价理论的产品评论情感语料库标注标准研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:fang200710081202fang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,语料库语言学蓬勃发展,基于语料库的研究正在对语言研究的诸多领域产生愈来愈大的影响。为满足日益增长的需求,语料库建设正在国内外如火如荼地开展。随着计算机技术的快速发展及普及,机器可读已成为当代语料库的基本要求,而使语料库机器可读的关键在于语料标注——为提高计算机处理自然语言的能力,而为文本添加元信息的过程。然而,目前语料库建设各自为政,缺乏标注标准,语料库之间数据难以共享这一问题日益显现。因此,语料库建设团体开始关注语料标注标准问题。目前,语料库的发展正处在以互联网为语料的第四个发展阶段。随着Web 2.0的兴起,尤其是微博、论坛、社交及购物网站等网络媒介迅速崛起,用户可不受时间及地域限制,分享个人观点,自由表达情感。因此,互联网上迅速涌现出大规模主观性文本,其中蕴含着丰富情感。对于这类新型情感语料如何进行标注,引起了语言学家和计算机专家的共同兴趣。在此背景下,本文拟对此类新型情感语料的标注标准进行探索。本研究基于系统功能语言学的评价理论,对产品评论(观点丰富且相对容易操作)这一具有代表性的新型情感语料进行标注研究。主要研究问题如下:1.何种标注模型适合英文产品评论的情感标注?2.将系统功能语言学中的评价理论应用于英文产品评论的情感标注这一做法是否可行?为解决以上问题,本研究选取英文产品评论(亚马逊美国官网上的有效手机评论1000条,总计96330字)作为研究对象,结合产品评论自身特点,提出一个多参数情感语义标注模型,并参考James Pustejovsky和Amber Stubbs(2012)所提出的MATTER(Model-Annotate-Train-Test-Evaluate-Revise)自然语言标注流程,由两名经过相应培训的标注员,对语料手工进行情感标注,并对此模型不断进行修正完善。因此,所获得的标注不断接近黄金标准标注。研究发现如下:1.面向情感分析的产品评论情感标注模型应包含两类情感参数:1)核心情感参数,即从评价理论出发,根据针对产品评论特点修正后的评价理论框架而划分的情感态度类型;2)边缘情感参数,即主要面向情感分析的边缘性情感参数,包括意见持有者、关键词、目标、方面、情感极性标记和级差等参数。2.系统功能语言学的评价理论基本适用于情感标注,但在应用于产品评论这一偏口语化的特殊语类时,有必要对原来的理论框架进行一定的修正与完善:1)将级差系统中的语力(FORCE)和聚焦(FOCUS)合并。级差是影响情感强度的表达,考虑到产品评论的特点,为方便情感挖掘中褒贬义的计算,建议将级差按照知网(How Net)情感分析词典中的程度级别词语划分为五个等级:极低(-2)、低(-1)、中(0)、高(+1)和极高(+2);2)将判断(JUDGMENT)系统视为一个整体系统,不划分子类;3)将情感(AFFECT)子类划分标准中的快乐(HAPPINESS)和满意(SATISFACTION)合并,一并归为满意(SATISFACTION)范畴;4)情感(AFFECT)子类划分标准中的安全性(SECURITY)改为信任(TRUST);5)将SURPRISE单独归为情感(AFFECT)系统的一个次范畴。实验表明,评价理论基本适用于互联网上大量涌现的新型情感语料的标注,基于评价理论进行情感标注是可行的。本研究结合实际情况所提出的面向情感分析的多参数情感语义标注模型符合基本标注规范,可为情感语料标注提供一个参考标准。如上所述,本研究取得了一定研究成果,具有一定研究意义。其意义主要体现在:(1)本研究延伸并丰富了语料标注方面的研究,对实际标注过程具有一定的指导意义。(2)本研究对情感语料标注进行了探讨,有关成果可以为他人今后研究所借鉴,此外,在一定程度上为在工程层面开展大规模的标注积累经验,提供语言学依据及支持。(3)学界普遍认为,功能语言学是一种适用语言学。但是,在实际应用过程中,存在的缺陷之一就是对其理论框架的生搬硬套,而非根据具体情况进行修订、加以完善。本研究在应用研究中对理论发展本身进行了反馈。然而,本研究也存在不足,主要体现在:(1)由于有限的人力和物力,本研究标注的语料有限,只选取了手机评论,并且缺乏对其他语种的标注。因此,更多领域、更多语种的情感标注需要进一步研究。(2)对于标注标准的验证,本研究主要是通过标注者一致性的考查。此外,还有其他一些方法可用于验证标注标准,例如机器学习等。这值得进一步的探索。
其他文献
近年来湖南产业结构失衡被认为是阻碍经济快速增长的重要因素,如果想将现有的经济成果向可持续发展经济体系转变,我们就需要更为科学的产业结构,科技的发展与创新正是提供产
在分析我国与危险化学品安全管理相关的法律法规及国家标准体系的基础上,对高校危险化学品安全管理模式进行了研究,构建了高校危险化学品的组织管理体系,包括仓储、领取、使用、
随着社会经济的不断发展,仿真技术在我国各个领域也不断在发展,其运用也渐趋成熟。本文以仿真技术在我国的发展及再发展为切入点,对仿真技术在各个领域行业中的运用进行了论
3月12-13日,以“智汇阳光共襄新程超越梦想共铸辉煌”为主题的华为年度合作伙伴大会在西安曲江国际会展中心盛大召开。此次合作伙伴大会、商业经销商大会、服务合作伙伴大会
为观察己烯雌酚对体外培养的胎鼠中脑神经元的影响,将孕14d的SD胎鼠中脑取出,制成细胞悬液后种植在24孔培养板中。实验分空白对照组和己烯雌酚组(浓度分别为10^-9、10^-8、10^-7
情绪应激给予我们以超乎常人的能力,然而我们付出的代价是昂贵的;每一次情绪应激,尤其是激烈的.长时期的情绪应激状态之后,我们便向疾病和老化走近了一步;应激提前支取了我们的生命
提出一种基于Autosar理念的整车电子电气架构设计方法。通过整车需求定义、原子逻辑单元搭建实现整车功能逻辑的实体化,然后利用模型设计分析方法,将功能需求分配到各个电子控
针对传统的煤矿现场应急演练受环境限制、成本高、存在安全隐患,现有煤矿应急演练系统未考虑多人协同等问题,结合多人协同在煤矿应急演练中的应用需求,从表示层、服务层、存
双院制人才培养模式对审计学专业学生的成长成才起到了应有的积极作用,但还存在学院和书院在人才培养中应承担的职能不够清晰;导师作用发挥有限;书院制具有不确定性,缺少顶层
运用中医藏象理论可有效指导临床辨证论治,并为认知临床复杂现象和组织器官功能联系提供了新的视域,但现代医学对中医藏象理论依然缺乏系统认知。基于正常组织器官的基因表达