基于EDT的中文网络文本主题情感倾向性分析与研究

来源 :南华大学 | 被引量 : 1次 | 上传用户:asherrrrr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着用户参与的不断加深,包含用户观点、态度以及对网络事件、产品评论的主观性文本迅速充斥着互联网。新闻、博客、论坛、贴吧等网络媒体用户数众多,成为了网络事件传播的主要载体。不同网络媒体文本结构各异,内容形式各具特点,海量数据处理给意见挖掘及倾向性分析带来挑战。为对不同结构文本进行统一处理,本文基于简单句对以新闻文本为代表的网络文本做主题倾向性分析。首先,对文本情感分析的背景、国内外发展现状做了介绍与总结。对数据清理、分词、词性标注等预处理工作,情感本体库的构建,特征提取,以及主要的情感分析方法和技术进行了简要介绍。其次,鉴于篇章级主题情感分析的复杂性,将任务分解为主题识别、主题情感判别及主客观分类三个子任务。采用多方法融合提取主题特征,建立一个基于空间向量距离的多特征主题识别模型,实现篇章主题识别。再次,对作为信息传播的重要渠道和载体的主流社会媒体及其文本结构差异进行分析。以新闻、博客、论坛等几个主要社会媒体中的新闻文本作为研究对象,这些体裁相对来说是长文本,将长文本情感转化为文本中情感关键句的情感。基于不同体裁句子的表达方式不同,而其简单句情感表达相似,本文基于简单句对整句进行建模分析。根据中文表达习惯和语法特征提出以情感依存元组(EDT)作为情感表达基本结构,并对此情感表达结构的抽取规则进行归纳,建立情感判别模型。最后,通过实验确定方法参数和不同方法的权重系数,将本文方法应用于COAE2014评测,取得了良好的评测成绩。将本文方法分别与有监督分类算法(KNN、SVM)和半监督算法(K-MEANS)进行实验对比。并对实验结果进行分析,结果表明基于EDT的情感判别方法具有较高的性能,与有监督的机器学习算法的分类性能相当,远高于半监督的聚类算法。
其他文献
随着社会竞争力的日益激烈,在较少的投资或不投资的情况下改善操作人员作业绩效是提高企业生产效率,增强企业在国内外竞争力的有效途径。应用工业工程技术中最基础的工作研究
随着通信技术和计算机技术的飞速发展,自动信息处理已成为人们获取大量信息不可缺少的工具文本分类作为自动信息处理的重要研究方向,有着广泛的应用前景粗糙集理论和神经网络
作为未来网络融合的基石,IMS正在成为固定和移动网络的新一代融合架构,而异构网络的融合和互通会引发很多新的安全问题。从安全需求角度分析,目前IMS在安全机制方面还有待完
本文综合运用包括图像平滑、图像分割、图像识别、图像修复等相关数字图像处理技术,针对数字视频质量损伤中的斑点去除和马赛克检测两个问题,展开了相应的研究。首先,本文分
移动机器人是一种能够在工作环境中自主移动并完成预定任务的智能系统,是机器人学和智能控制的一个重要研究领域,在工业、农业、民用以及军事等领域具有广泛的应用前景。在移
消息中间件是一种由消息传送机制或消息队列模式组成的中间件技术,利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成。作为一个中间
近些年来,随着中国社会的发展以及高等教育水平的提高,每年毕业的大学生人数越来越多,就业成为当今大学毕业生面临的重要挑战之一。人才资源是生产力中最为活跃、最有价值的、最
随着中国加入WTO,我国各个行业的竞争也日趋激烈。企业保有客户留住利润的难度越来越大。如果企业还仅仅依靠产品本身似乎很难逃脱失败的命运。因此越来越多的企业将重点从“
互联网的发展让我们的生活世界成为了地球村,网络的便捷性使人们每时每刻都能够从网络上获取信息。随着Web2.0技术的应用,人们不再只是简单的获取网络上的信息,而是成为了网
未来的通信网络是一个包含多种不同接入技术的异构网络,不同技术的接入网络具有不同的覆盖能力、容量大小、以及对业务的不同服务质量支持能力等。一个端到端的QoS会话可能要