论文部分内容阅读
随着用户参与的不断加深,包含用户观点、态度以及对网络事件、产品评论的主观性文本迅速充斥着互联网。新闻、博客、论坛、贴吧等网络媒体用户数众多,成为了网络事件传播的主要载体。不同网络媒体文本结构各异,内容形式各具特点,海量数据处理给意见挖掘及倾向性分析带来挑战。为对不同结构文本进行统一处理,本文基于简单句对以新闻文本为代表的网络文本做主题倾向性分析。首先,对文本情感分析的背景、国内外发展现状做了介绍与总结。对数据清理、分词、词性标注等预处理工作,情感本体库的构建,特征提取,以及主要的情感分析方法和技术进行了简要介绍。其次,鉴于篇章级主题情感分析的复杂性,将任务分解为主题识别、主题情感判别及主客观分类三个子任务。采用多方法融合提取主题特征,建立一个基于空间向量距离的多特征主题识别模型,实现篇章主题识别。再次,对作为信息传播的重要渠道和载体的主流社会媒体及其文本结构差异进行分析。以新闻、博客、论坛等几个主要社会媒体中的新闻文本作为研究对象,这些体裁相对来说是长文本,将长文本情感转化为文本中情感关键句的情感。基于不同体裁句子的表达方式不同,而其简单句情感表达相似,本文基于简单句对整句进行建模分析。根据中文表达习惯和语法特征提出以情感依存元组(EDT)作为情感表达基本结构,并对此情感表达结构的抽取规则进行归纳,建立情感判别模型。最后,通过实验确定方法参数和不同方法的权重系数,将本文方法应用于COAE2014评测,取得了良好的评测成绩。将本文方法分别与有监督分类算法(KNN、SVM)和半监督算法(K-MEANS)进行实验对比。并对实验结果进行分析,结果表明基于EDT的情感判别方法具有较高的性能,与有监督的机器学习算法的分类性能相当,远高于半监督的聚类算法。