基于多层狄利克雷过程的图挖掘主题模型

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:whitejet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型在发现文本潜在主题方面已被证明是非常成功的,但是以往人们所研究的主题模型都基于“词袋”假设,忽略了词之间的关联。另一个问题是隐藏的主题数目往往需要预先确定。然而在实际应用中,确定适当数目的主题非常困难,有时是不现实的。本文提出一种基于多层狄利克雷过程的非参数贝叶斯主题模型HDP-GTM,该模型考虑了词与词之间的关联,将文本数据表示为图结构数据。同时通过多层狄利克雷过程实现了主题数目的灵活选取,突破了经典主题模型需要预先给定主题数目的局限性。由于HDP-GTM模型突破了传统主题模型“词袋”的限制,考虑了数据的图结构性质,充分利用了更多的数据信息,从而使得文本分类效果显著提升。通过实验,进一步验证了本文提出的HDP-GTM模型的有效性和优越性。
其他文献
在纺织行业中,查询某种布料花案图片的工作通常是工作人员凭借个人经验查找完成的。这种方法的查询速度和查询准确率都不稳定,无法满足布料贸易公司准确地查找图片的需求。市
随着我国交通建设的不断推进,公路隧道建设已进入攻坚阶段,高海拔特长隧道的建设数量也不断增多。隧道施工通风影响隧道建设周期,事关施工人员的身心健康。高海拔特长隧道区别于普通公路隧道,隧道施工通风问题不断显现,面临供风不足,通风距离长,风管漏风严重,风机布设不易,占用隧道施工空间大等问题,如何保障施工期安全的通风设计,对推进公路隧道建设具有积极的现实意义。因此,本文依托新疆东天山特长公路隧道,开展一种
学位
在金融领域,嵌入式产品越来越复杂同时应用越来越广泛,但嵌入式产品稳定性一直没有得到有效地解决,所以会在正常的金融交易中存在安全隐患,这往往会给人们在日常金融交易带来
近年来,网络社会媒体中分享的文本、图像、视频等信息正在以不可估量的速度增加。尤其是视频分享网站数量的增多,使得用户能够更加方便的上传、管理和分享视频内容。视频分享
在当前司法改革的大背景下,刑事审判任务形势依然严峻,自刑法修正案(八)、(九)施行以来,轻微刑事案件比例不断上升,最典型的危险驾驶案件在刑事案件中所占比例不断攀升。在这
21世纪是信息技术大爆发的时代,社会化标注系统的出现产生了海量的信息资源,挖掘社会化标注系统中的标签资源,能够提升用户体验。在挖掘标签潜在有用信息过程中,如何对标签分
近些年来,我国的经济有了飞速的发展,伴随而来的是时代的改革,一个全新的信息化技术时代已经到来。国家也有大力提倡各个行业及企事业单位运用信息化技术进行运营及管理,从而
在计算机视觉领域中,行人检测一直以来都是一个非常受关注的问题,并且在现实生活中,有很多应用都用到了行人检测技术,例如智能驾驶、视频监控等等。虽然研究人员们对行人检测
胰岛素抵抗是2型糖尿病(T2DM)最主要的特征之一,已被大量研究证实贯穿于整个T2DM的发生和发展过程。胰岛素抵抗主要发生在脂肪、骨骼肌和肝脏等组织中,并且发病机制复杂。其中,炎症学说近年来备受关注,该学说认为慢性炎症可通过多种途径导致胰岛素抵抗和T2DM的发生。因此,本论文以壳寡糖双胍(COSG)为研究对象,研究其对T2DM大鼠脂肪组织和骨骼肌组织中胰岛素抵抗水平及相关信号通路的作用,同时探究其
随着移动互联网的快速发展,移动应用已经成为人们日常生活中必不可少的一部分。而在移动应用的开发过程中经常会遇到以下两个问题:第一,新功能的发布每次都需要通过发布新版