论文部分内容阅读
文本情感倾向性研究在近些年成为众多学者关注的热点,其应用领域也在不断的拓宽。从社会舆论监督到产品口碑检测都离不开文本情感倾向性研究。本文在传统的文本分类技术基础上提出一种基于规则与统计方法相结合的情感分析模型。并将该模型在两种有代表性的语料中做了实验。语料一:领域背景复杂且分布极不平衡的新闻文本语料;语料二:领域背景单一的股票领域的专家的股评语料。(1)分析新闻文本的情感倾向性,为新闻文本自动播报提供情感信息。本文提出一种中心句确定方法,并在提取的中心句的基础上运用统计方法提取潜在规则来对人工构建的规则库做补充,使规则库相对完备提高情感分析的效果。实验中采用支持向量机、贝叶斯分类器和K近邻分类器作为分类器与规则结合,并且使用多种特征提取方法和特征权重计算方法来进行对比实验。由于新闻语料自身的分布的极不平衡性,导致单纯的统计的方法在稀有类上的表现比较差,而规则与统计相结合的方法虽然没有能够完全解决这一难题,但却在一定程度上改善了实验效果。实验效果表明规则与统计方法相结合的情感分析模型相比于单纯的统计模型在效果上有了较明显的提高,表明规则结合统计的方法具有很好的普适性。(2)本研究是建立在股票领域的垂直搜索应用上的。该应用需要对股评专家对某支股票的评论做看多、看平、看空、不确定进行分类。在这部分实验中因为所用语料短小、领域性非常强、口语化比较严重,通用的分词软件不能很好的进行分词。本文提出一种简便的定位特征词的方法,不仅满足了实验需求且时间效率非常高,时间复杂度为0(n)。由于领域单一容易提取较完备的规则,在这部分实验中规则的平均准确率均在90%以上,且均优于统计的方法。本文提出的规则结合统计方法的分类模型在背景复杂的新闻文本语料中取得了很好的效果,较单纯的统计方法分类效果有了明显的提高,有效地改善了稀有类的分类效果。但是在背景单一的股票领域语料上并没有多大的提高,说明规则的方法较适用于背景单一的语料。