论文部分内容阅读
随着“情感计算”的兴起,人们日益重视主观性文本,并试图应用计算机对这些文本所表达的情感进行自动分析。这催生了一个新兴的、交叉研究领域——情感分析和观点挖掘。前者关注文本所表达的褒贬性,后者侧重研究人们对于事物的观点,例如客户对于产品的、服务、机构的评价。在双语情感分析和观点挖掘中,情感词典是一种十分重要的翻译工具。最常见的情感词典是褒义词和贬义词词典。至今为止,国内外词典学界已经编撰并出版了一系列分别由中文和英文构成的单语种情感词典。中文情感词典包括褒义词词典、贬义词词典和褒贬义词典,例如NTUSD和清华大学构建的情感词词典等;英文情感词典有WordNet、SentiWordNet、LIWC(Linguistic Inquiry and Word Count),ANEW(Affective norms for English words),MPQA(Multi-Perspective Question Answering)等。但是,这类词典具有一个共同的局限性:所列出来的词条往往是孤立地表示某个词的褒贬色彩;一旦进入不同的语境的时候,其极性往往会发生变化。此外,目前市面上仍然缺乏双语情感词典。因此,如何编撰双语情感词典以适应于跨语种的情感分析和观点挖掘?这就成为了语言学家、词典学家和计算机专家一个共同感兴趣的研究课题。从词典学、翻译学的角度来看,双语词典编纂的核心议题是双语对等词的挖掘,即如何将被释义词翻译为另外一种语言中的释义词。本文以形容词为例,研究如何将汉语形容词翻译为对应的英语形容词,核心议题是如何确定所翻译的英语形容词为该汉语形容词的最佳对应词。本文采用的理论框架是认知语言学中的AVS(Attribute-Value Structure)。其中,“A”表示实体(例如产品)的特征;“V”表示这些特征的值,往往由形容词来体现。一方面,AVS是形容词语义表示的基本理论框架;另一方面,与“V”联结的“实体-特征”就成为了该形容词出现的一个微型语境,对于该词语义的精确化起到了极为重要的作用。所应用的语料为中国的淘宝和美国的亚马逊中的客户评价。具体做法是:1)先确定实体为某款手机;2)基于淘宝语料,进一步从中挖掘该手机的特征及其值,获得一个中文的AVS结构,例如“内存-大”;从亚马逊的客户评价中进行相应的挖掘,获得一个英文的AVS结构,例如“memory-big”;3)对齐中英两个AVS结构,我们发现它们具有相同的实体和特征。在此基础上,我们进一步认定“大”和“big”为该领域中的最佳对等词。实验表明,中英AVS结构对齐的准确率达到了80%,表明了该方法具有一定的科学性和可行性。本文的创新之处在于:1)理论上,采用了AVS结构;并从词典学的角度对实体和特征进行了解读,认为它们实质上是形容词在文本中出现的一个微型语境;2)在实践上,鉴于市面上缺乏免费使用的客户评价平行语料,我们创造性地选择了中国的淘宝和美国的亚马逊作为了可比语料。上述研究对于双语词典的编纂具有借鉴意义。一般的做法是会为某个汉语单词配上多个译文即对等词,但是对于哪个对等词是最佳对等词一般缺乏进一步的说明。在本文中,通过上述方法可以寻找到一定语境中的最佳对等词,因此起到了缩小候选对等词数量的作用。这种研究存在以下局限性,并值得进一步的探索。首先,它的试验对象是形容词性情感词汇。对于其他词性的研究是否可用还有待检验。其次,所选用的可比语料为淘宝和亚马逊。是否还有更加具有可比性的语料(库),甚至平行语料库,是一个值得期待的事情。