【摘 要】
:
随着微博平台的不断发展,每天都有大量的话题产生,反映着现实社会中的一些热门事件和公众关注焦点。聚集在特定话题下的微博,集中体现了用户对该话题的观点表达,为了获得用户
论文部分内容阅读
随着微博平台的不断发展,每天都有大量的话题产生,反映着现实社会中的一些热门事件和公众关注焦点。聚集在特定话题下的微博,集中体现了用户对该话题的观点表达,为了获得用户对话题的舆情信息,本文以微博话题为研究对象,针对话题的情感分类和观点汇总两个方面对其进行了研究。针对微博话题众多但情感标注训练集缺乏以及由某一话题训练出的分类器话题适应性差等问题,提出了一种话题自适应微博情感分类框架,旨在利用有标注训练集的话题数据对无标注训练集的目标话题数据进行情感分类。首先利用LDA对话题进行主题建模,判断话题之间的主题分布相似性,以此确定用于适应目标话题的源话题,接着应用SFA算法和引入潜在特征空间来减轻不同话题间特征的不匹配,此外,针对微博数据的特点,添加非文本特征来增强不同话题间特征的匹配程度,得到最终的特征组合,在此基础上,由源话题训练出的分类器对目标话题进行情感分类。针对同一话题下的微博表达具有不同的侧重点形成不同的微博类簇,对同一微博类簇内部和不同微博类簇之间观点词间联系的紧密程度进行分析,提出了基于重叠社区发现的典型观点汇总技术。首先抽取观点词并计算观点词之间的PMI值,以此为基础建立观点词网络,接着在观点词网络上应用SLPA发现观点词重叠社区,然后基于观点词社区对微博进行划分形成微博类簇,最后在微博类簇之上使用Hybrid TF-IDF算法抽取典型观点。本文对以上两部分在真实数据集上进行了实验,结果表明本文提出的方法能够有效地对目标话题进行情感分类,同时抽取得到的典型观点能够反映出不同的话题侧重点。
其他文献
近些年来,使用噪声和非线性动力系统的随机共振现象检测微弱信号的研究引起了学者们广泛关注,主要研究内容包含随机共振模型的选择,信号的输出响应与失真恢复等.随机共振通过
设S =(a1,...,am;b1,…,bn)是一个序列对,其中a1,...,am和b1,...,bn是非增非负整数序列。若序列对S是某个简单二部图G =(X∪Y,E)的度序列,使得顶点集X和Y中各顶点的度分别为a1,..
图像在获取、传输、存储等过程中极易受成像设备、外界环境等因素的影响,形成各种干扰信息引起图像质量不佳,导致后续图像处理工作无法顺利进行。因此,图像复原算法的研究显
随着MPTCP(Multipath-TCP多路径传输控制协议)协议的不断演进,人们注意到MPTCP协议的鲁棒性、吞吐量、传输性能正在不断地增强,但对多路径传输缓存耗量的计算还在沿用单路径
在云即服务的当今互联网生态环境中,云服务提供商进入安全领域的角度和传统安全厂家的角度非常相似,以提供物理、网络、存储和虚拟化层面的安全服务为切入点,即网络基础架构
嵌入式网络系统,如无线传感器网络,越来越多地被运用到生产生活的各个方面。但由于嵌入式网络系统工作负载多变和资源受限的特点,异常检测和诊断往往十分困难。本文提出了一
在大规模数据中心网络环境中,使用单台SDN控制器通常存在性能瓶颈,因此常把分布式的多个控制器组成控制器集群,以提高对交换机的控制能力。针对多控制器方案中,由负载不平衡
类不平衡问题,也被称为不平衡类问题或稀有类问题,是模式识别和机器学习领域研究的热点问题之一。对于两类问题,类不平衡问题的特点是一个类(多数类)的实例数明显多于另一个
XML已成为Web数据交换和信息表示的事实标准。随着XML数据量的急剧增长,如何对这些正在快速增长的海量XML数据有效地组织和存储,并提供高效快速的数据检索,是当今数据挖掘领
随着生活水平的不断提高,人们对流媒体资源的需求越来越大,流媒体交互平台的作用愈发重要。目前主流的流媒体交互平台有两种:基于独立式服务器的流媒体交互平台和基于分布式