论文部分内容阅读
近年来,语料库语言学蓬勃发展,基于语料库的研究正在对语言研究的诸多领域产生愈来愈大的影响。为满足日益增长的需求,语料库建设正在国内外如火如荼地开展。随着计算机技术的快速发展及普及,机器可读已成为当代语料库的基本要求,而使语料库机器可读的关键在于语料标注——为提高计算机处理自然语言的能力,而为文本添加元信息的过程。然而,目前语料库建设各自为政,缺乏标注标准,语料库之间数据难以共享这一问题日益显现。因此,语料库建设团体开始关注语料标注标准问题。目前,语料库的发展正处在以互联网为语料的第四个发展阶段。随着Web 2.0的兴起,尤其是微博、论坛、社交及购物网站等网络媒介迅速崛起,用户可不受时间及地域限制,分享个人观点,自由表达情感。因此,互联网上迅速涌现出大规模主观性文本,其中蕴含着丰富情感。对于这类新型情感语料如何进行标注,引起了语言学家和计算机专家的共同兴趣。在此背景下,本文拟对此类新型情感语料的标注标准进行探索。本研究基于系统功能语言学的评价理论,对产品评论(观点丰富且相对容易操作)这一具有代表性的新型情感语料进行标注研究。主要研究问题如下:1.何种标注模型适合英文产品评论的情感标注?2.将系统功能语言学中的评价理论应用于英文产品评论的情感标注这一做法是否可行?为解决以上问题,本研究选取英文产品评论(亚马逊美国官网上的有效手机评论1000条,总计96330字)作为研究对象,结合产品评论自身特点,提出一个多参数情感语义标注模型,并参考James Pustejovsky和Amber Stubbs(2012)所提出的MATTER(Model-Annotate-Train-Test-Evaluate-Revise)自然语言标注流程,由两名经过相应培训的标注员,对语料手工进行情感标注,并对此模型不断进行修正完善。因此,所获得的标注不断接近黄金标准标注。研究发现如下:1.面向情感分析的产品评论情感标注模型应包含两类情感参数:1)核心情感参数,即从评价理论出发,根据针对产品评论特点修正后的评价理论框架而划分的情感态度类型;2)边缘情感参数,即主要面向情感分析的边缘性情感参数,包括意见持有者、关键词、目标、方面、情感极性标记和级差等参数。2.系统功能语言学的评价理论基本适用于情感标注,但在应用于产品评论这一偏口语化的特殊语类时,有必要对原来的理论框架进行一定的修正与完善:1)将级差系统中的语力(FORCE)和聚焦(FOCUS)合并。级差是影响情感强度的表达,考虑到产品评论的特点,为方便情感挖掘中褒贬义的计算,建议将级差按照知网(How Net)情感分析词典中的程度级别词语划分为五个等级:极低(-2)、低(-1)、中(0)、高(+1)和极高(+2);2)将判断(JUDGMENT)系统视为一个整体系统,不划分子类;3)将情感(AFFECT)子类划分标准中的快乐(HAPPINESS)和满意(SATISFACTION)合并,一并归为满意(SATISFACTION)范畴;4)情感(AFFECT)子类划分标准中的安全性(SECURITY)改为信任(TRUST);5)将SURPRISE单独归为情感(AFFECT)系统的一个次范畴。实验表明,评价理论基本适用于互联网上大量涌现的新型情感语料的标注,基于评价理论进行情感标注是可行的。本研究结合实际情况所提出的面向情感分析的多参数情感语义标注模型符合基本标注规范,可为情感语料标注提供一个参考标准。如上所述,本研究取得了一定研究成果,具有一定研究意义。其意义主要体现在:(1)本研究延伸并丰富了语料标注方面的研究,对实际标注过程具有一定的指导意义。(2)本研究对情感语料标注进行了探讨,有关成果可以为他人今后研究所借鉴,此外,在一定程度上为在工程层面开展大规模的标注积累经验,提供语言学依据及支持。(3)学界普遍认为,功能语言学是一种适用语言学。但是,在实际应用过程中,存在的缺陷之一就是对其理论框架的生搬硬套,而非根据具体情况进行修订、加以完善。本研究在应用研究中对理论发展本身进行了反馈。然而,本研究也存在不足,主要体现在:(1)由于有限的人力和物力,本研究标注的语料有限,只选取了手机评论,并且缺乏对其他语种的标注。因此,更多领域、更多语种的情感标注需要进一步研究。(2)对于标注标准的验证,本研究主要是通过标注者一致性的考查。此外,还有其他一些方法可用于验证标注标准,例如机器学习等。这值得进一步的探索。