【摘 要】
:
微博文本具有短文本、用户实时发布并带有微博系统标记的时间戳等特点,因此,在进行微博文本挖掘时微博短文本的特征稀疏性和文本与时间的关系直接影响文本挖掘的结果。传统的
论文部分内容阅读
微博文本具有短文本、用户实时发布并带有微博系统标记的时间戳等特点,因此,在进行微博文本挖掘时微博短文本的特征稀疏性和文本与时间的关系直接影响文本挖掘的结果。传统的主题模型在建模过程中忽略了对短文本特征稀疏性和文本动态演化的兼顾。针对上述问题,在主题模型的基础上提出一个词对主题演化模型(Biterms Topic over Time,BTo T)。BTo T模型在每一篇文档中组建同一主题的“词对”集合,通过文档的词共现解决短文本特征稀疏的问题,同时在文档生成过程中考虑到时间因素的影响,使用连续的随机变量表示时间维度上主题强度的变化。采用吉布斯采样对模型内的概率分布进行估计,能够得到BTo T模型中的三个重要随机分布“文档-主题”、“主题-词”和“主题-时间”。其中,“主题-时间”概率分布表示文语料集的主题强度随时间的变化。采用微博平台上带有时间标记的微博文本作为实验数据,在模型上进行验证。实验使用困惑度、主题相似度、分类精度和F1值作为评价系数,选取狄利克雷分配(Latent Dirichlet Allocation,LDA)、词对主题模型(Biterms Topic Model,BTM)和主题演化模型(Topic over Time,To T)等当前文本挖掘领域中流行的主题模型进行对比实验。实验结果表明,BTo T模型的评价系数优于对比模型,能够更有效地完成微博文本的主题挖掘,并在保证主题质量的同时分析主题的演化过程。
其他文献
流数据分析作为数据挖掘领域研究的重点课题之一,采用的技术主要有分类、频繁项挖掘、聚类、估计、预测、相关性分组和关联规则等,其中流聚类领域经典算法CluStream中的在线-
在风电机组运行过程中,由于风切变、阵风、风向变化等复杂运行环境,风电叶片常常会出现失速现象。研究表明,翼型失速将会大幅降低叶片风能吸收效率,增加叶片运行载荷。通过翼
无线胶囊内窥镜(WCE)是一种具有重要临床价值的革命性技术,以其直观、简便、安全、无创、无痛、消化道全覆盖等特性成为肠胃道特别是小肠病变检测最具吸引力的医疗手段。但是
随着网络交易方式的流行,网络商品评论文本得到爆炸式增长,评论文本中所蕴含的情感信息对网购用户和商家都有巨大的应用价值,对文本进行自动化分析的情感分析技术因此备受关注。为了抽取出评论中所蕴含的有关评价主体各个方面的情感,本文将以神经网络为主要技术方向,针对商品评论展开方面级的细粒度情感分析,主要研究工作分为aspect-category sentiment analysis(ACSA)以及aspec
无人值守变电站作为变电站的未来发展趋势,其关键在于采用智能化手段实现无人值守的同时保证变电站的运行安全。目前无人值守变电站主要使用遥视系统进行巡检,依赖人工方式发现异常情况,但对于大量的现场视频,该方式会出现效率低下、处理不及时的情况,此外还会存在因工作人员注意力下降造成的误判问题,为了解决这些问题,本文提出采用深度卷积神经网络模型对无人值守变电站内的目标进行跟踪,不仅减少了对人工的依赖,还能在提
变点检测是近年来图像分析,生物医学等多个领域研究的热点问题,有着广泛的应用背景。本文中,在标准BS算法的基础上,介绍了一种利用随机局部化思想的新颖的广义二分法(WBS),用于估计数据集中变点的数量和位置,通过计算每个抽取区间的CUSUM统计量来判断对应变点的显著程度。本论文从WBS基本原理和数据模拟出发,以提高算法和时间序列模型的学习效率为研究目标,探究整个过程的有效性和可行性,并试图通过改变参数
细菌多药耐药性日益成为威胁人类健康的全球性问题,然而针对耐药菌的新型抗菌药的研发跟不上耐药菌发展的速度,因而研发新型抗菌药显得尤为重要。喹诺酮类药物具有抗菌谱广、
目前,节能减排成为了国家扶持发展的重点对象,而有机朗肯循环(ORC)便是其中的热点之一。冷凝设备为中低温ORC发电系统中重要的一部分,可为ORC系统的汽轮机提供较低的出口压力
机载LiDAR是一门新兴的测绘技术,是测绘领域继GPS技术之后的又一次技术革命。目前LiDAR技术已经成为广大科研和工程技术人员解决空间数据获取问题的新手段,为工程与科学研究提供了更准确的数据。LiDAR技术在硬件方面国内外的研究已经取得了长足的进展,但在LiDAR点云数据后处理方面尽管有一些突破,依旧没有十分成熟的方案,仍然是研究的难点和热点。本篇论文基于高压输电线路通道机载LiDAR点云数据,
人脸表情识别属于一个交叉性学科,涉及了计算机科学、图像处理、模式识别、计算机视觉、人机交互、心理学、生理学等学科。表情识别研究不仅能完善情感计算的理论体系,而且还