基于BTM主题模型的短文本话题发现研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wynneyehui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体以及各大社交平台的进一步发展,信息大爆炸的现代社会的快速来临,各种良莠不齐的短文本数据充斥在我们的身边,如微博数据、各大评论状态信息、影评等信息,这些短文本数据信息中绝大多数都蕴藏着丰富且高价值的信息。目前经常被使用到的方法是主题模型,该类模型主要是通过建模学习文档数据集中潜藏的主题结构以便自动去理解分析文本集内的语义。传统主题模型基本上都是基于长文本数据进行建模学习,在应用到短文本上时却没有考虑到用户生产出的短文本数据所具备的文本数据稀疏性等特征。为了尽可能克服短文本数据集内所存在的数据稀疏性问题,本文采用BTM短文本主题模型对所收集到的微博短文本数据进行建模学习,该模型以文档中所有的共现词对为建模对象,成功的克服了每篇短文本由于内容太短、共现信息不丰富所带来的稀疏性问题。在对该模型建模学习话题发现过程中所运用到的技术方法进行更深层次的研究发现后,并结合已收集到的微博数据集的基础上,对BTM模型挖掘潜在的话题发现建模技术中所存在的不足实施了改进措施,使短文本话题发现得出的结果更为精确、话题质量更高,详细工作如下:(1)针对标准BTM主题模型在建模过程中只对共现词对建模学习的方式,而忽略了微博内容所存在的交互性属性以及共现词对的语义联系,在标准的BTM模型的基础上,提出了一种具有热度和语义关联的BTM主题模型。改进后的模型尽可能利用了微博下的评论、转发、点赞数的大小所带来的影响,使用热度矩阵作为文档中单词的概率分布的权重值,在一定程度上提高了文档中单词的分布概率。并且在BTM模型进行Gibbs采样算法时,结合Word2Vec模型对文档内共现词对进行语义上的相似度计算,满足预定值的则对共现词进行加强操作,使词对具有语义上的关联关系。实验结果也表明,改进后的BTM模型改善了文档中单词的概率分布,使得各类主题的描述更加准确,建模后得到的主题质量更高。(2)在短文本话题发现阶段,采用Single-Pass聚类算法对改进后的模型建模学习得到的文档向量进行聚类分析,缓解了Single-Pass聚类算法存在的输入文档顺序先后敏感的劣势。对参数阈值?进行值优化后,改进聚类算法的相似度计算方法,进而更高准确率的挖掘出短文本中潜藏的话题。结合对比实验可以得出,该方法在精确率P、召回率R以及F1值上都有了一定的提高,使得短文本话题发现的结果在精确度上又有了提升。
其他文献
原位反应作为一种便利的合成手段,可以得到常规条件下不易得的结构新颖的配合物,大大拓展了现有合成方法。2,1,3-苯并噻二唑(BTD)是一类典型的平面分子且容易通过结构修饰进行
计算机视觉(Computer vision)又称机器视觉[1],是指用摄像机和电脑模拟人类视觉对目标进行识别、跟踪、测量等操作,并通过识别和分析做进一步的图形处理,将之处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术已经替代了很多人工的工作,如车牌识别,人脸识别,自动驾驶等等,而在农业方面,遥感技术,农作物动态监测,病害预防,农产品质量分级等领域都有广泛的应用[2]。而本文提出了一种全
随着东部煤炭资源开采殆尽,西部在未来将成为中国煤炭开采的主战场。新疆地区煤炭资源丰富,其急倾斜煤层储量占比较高。急倾斜煤层赋存较为复杂、开采难度大、技术要求高,采用水平分段放顶煤采煤法,由于其具有采放比较大(乌东煤矿采放比约1:7)、埋藏较浅、地表向采空区漏风严重、底部煤体自卸压瓦斯逸散、采空区范围大且遗煤较多等特点,导致工作面瓦斯防治工作难度较大,隅角气体积聚和火灾事故频发。自然风压的变化对采空
近年来,随着人口不断增长,人们对能源和环境问题越发关注,因此作为勘探和开发海洋资源的重要工具,无人船得到了快速发展。燃料电池混合动力无人船是无人驾驶技术和新能源技术相结合的产物,具有零排放、效率高、启动快等优点,极具发展和应用前景。动态自主避碰、航迹控制和能量管理策略是提升混合动力无人船自主航行安全性、稳定性和智能化程度的关键技术,但目前的研究还存在一些难点,包括:无人船操纵特性约束、控制器实时性
能源危机与环境污染是当前社会面对的两大问题。柴油机替代燃料是缓解能源危机和降低污染物排放的有效途径。因此,本文从燃料设计角度,采用试验与数值计算相结合的研究方法,探究了异丁醇/生物柴油混合燃料在柴油机上的燃烧和排放特性。首先,基于发动机台架试验,以生物柴油(IB0),异丁醇质量掺混比分别为10%(IB10)、20%(IB20)以及30%(IB30)的异丁醇/生物柴油混合燃料为试验燃料,探究了不同负
城市燃气管网是关乎民生的生命线工程之一,已广泛使用燃气聚乙烯(PE)管道,一旦燃气PE管发生泄漏,将会产生非常严重的后果。因此,对埋地燃气PE管道进行定期检查,并根据检查结果进行维护,将会在很大程度上减少因为管道出现缺陷而引起的危害。本论文提出了一种针对PE燃气管道的缺陷进行自动检测的算法,可以准确且高效的对PE燃气管道内部有无缺陷以及缺陷的种类进行自动判断。本论文根据PE燃气管道口径小和材料为高
降水是全球水循环的关键环节,连接着大气过程和地表过程,在物质和能量循环中扮演重要角色。精确的降水信息及其时空分布对水文学、气象学、气候学和农业科学等研究领域具有重
蔬菜黄萎病是大丽轮枝菌(Verticillium dahliae)引起的土传维管束真菌病害。该菌遗传变异快、寄主广、难防治。真菌细胞骨架在胞质分裂、菌丝形态建成、菌丝顶端生长及定殖宿主
在石油钻井,修井过程中,上、卸钻杆的速度和效率是影响钻井完成速度的重要因素。传统的作为连接钻杆或立根的重要工具的液压大钳已经很难满足实际工作需求,而且存在许多安全
关节臂式坐标测量机是一种以角度测量为基准的非正交系精密仪器,具有操作简单、重量轻、灵活性强、适用场景广泛、测量空间大等特点,主要应用于模具设计、夹具定位检测、产品质量控制、逆向工程等领域,具有广泛的应用前景。目前关节臂式坐标测量机的主要问题是测量精度较低,影响其测量精度的因素可分为动态和静态两大类。静态因素主要是指测量机的结构参数误差,例如连杆长度误差、关节长度误差等,一般通过运动学标定来解决。动