论文部分内容阅读
近年来,随着电子商务,个人博客,社交网站和微博的蓬勃发展,互联网进入了一个崭新的时代,广大用户有了发表自己意见的空间,带有主观色彩的言论和评价随之铺天盖地而来。这些海量的非结构化文本包含了大量的信息,企业需要从中获得用户对产品的意见,政府需要知道群众对某项政策的反映,而用户在消费前想得到更多的建议,如何处理这些信息从而获得我们想要的知识,成为当前学者们关注的焦点。情感分类是随之兴起的一个研究领域,它是指通过挖掘和分析文本中的立场、观点、情绪等主观信息,对文本的情感倾向做出类别判断,将其分为正面(positive)或负面(negative)。文本情感分类可以应用到舆论分析、信息过滤、产品评价、产品推荐、智能化搜索和用户兴趣发掘等方面。本文的主要研究内容包括以下几个方面:首先,本文建立了一个跨领域的语料库,并在知网情感词汇的基础上,加入未登录词的情感计算,构建了一个较为详细的情感词典。未登录词的情感计算采用基于知网的语义相似度计算方法,之后在词汇倾向分析的基础上进行文本情感分类;然后,提出了基于概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)的情感分类方法,该方法使用概率模型表示“文档-潜在语义-词”三者之间的关系,文档和词都可以映射到同一个语义空间中,较好地解决了多义词和同义词的现象,使用EM算法进行迭代求解,可以大大降低时间和空间复杂度。基于语义理解的方法效率较高,但适应性较差,每个领域都有各自的表述情感词,且同样的情感词在不同的分类领域褒贬性也不尽相同,另外,在汉语中,人们常常使用消极情感的间接表达(Indirect Expression of Negative Sentiment, IENS)或“反语”修辞手法来表达负面情感,因此,基于语义理解的分类更倾向于将文本划分到正面类别当中;另一方面,基于PLSA的方法需要大量的人工标注文本集,训练和分类时间都较长,但适用范围较广,由于正面词和负面词在消极态度的文本中出现频率都比较高,所以PLSA方法更容易学习消极的情感表达。本文针对两种方法各自的特点,将两种方法结合起来,提出了一种自监督模型,从而克服了上述缺点,实验表明改进的分类方法准确率可达90%以上。