基于频繁词网络的LDA最优主题个数选取方法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:luckycpw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
LDA(latent Dirichlet allocation,隐含狄利克雷分布)主题模型被广泛应用于大规模文档处理,通常用于主题提取、情感分析和文本降维等。这些模型使用类似期望最大算法从文档集合中提取低维语义分布,并将每一维分布有效结合,形成主题。在模型构建过程中,初始主题数 K 对迭代过程与结果非常重要。针对这一问题,根据文档聚类簇数(即社区个数)与文档集隐含主题数相一致的特点,提出了一种以频繁词集网络的社区划分个数用来指定LDA主题模型主题输入个数的方法。该方法对文档构建频繁词对,并以此为基础构建词
其他文献
<正>2018年5月3日傍晚在位于吉林省白城市通榆县的吉林向海国家级自然保护区鹤类核心区青年坝附近(44°59′51.5″N,122°17′52.1″E,海拔168 m)使用NIKON-D4相机800 mm定焦
期刊
目的:建立紫杉醇诱发大鼠周围神经疾病的模型,研究α-硫辛酸对紫杉醇诱发大鼠周围神经疾病的治疗作用。方法:40只SD大鼠随机平均分为紫杉醇组(P组)、对照组(C组)、预治疗组(AP组)和后
利用1956年航测、1970/1973年1:50000地形图以及野牛沟流域2003年ASTER影像获取的3期冰川资料,对黑河源头西支野牛沟流域的冰川时空变化进行了分析.通过分析流域气温变化和冰川变
本文分析了划船运动员常见损伤的原因,提出要避免腰和膝部损伤的发生,关键在于及时消除运动后腰、膝部疲劳和注意平时的预防环节。
内容管理系统是高校教务管理中一个重要的组成部分。现有教务信息管理系统已逐渐显现出运行缓慢,操作复杂等亟待解决的问题。.NET新技术的发展以及新的管理模式的出现有助于
上海大学OMC原创音乐社是一个活跃在上海大学校园的音乐社团,以原创音乐作品的创作和演释为主。其社员不仅拥有一定的器乐演奏和声乐演唱基础,还具有音乐创作热情,作品在国内
期刊
本文对《合同法》第八条之立法缺陷进行了剖析 ,并提出了如何完善这条立法的个人见解。
一些教师质疑磁流体发电机回路中电流的计算问题,本文就此问题从磁流体发电机两极板问的某一截面出发,分析和计算通过这一截面的电量,最后给出电流的计算公式。
自从香农定理被提出以来,信道编码经过了多年的发展,诞生出了许多经典的编译码算法,比如LDPC码与Turbo码,但一直没有一种编码方法能达到香农理论极限。直到土耳其教授Ardal A
司马迁主要生活在西汉武帝年间,武帝在位虽仅五十余年,但这五十余年却构成了中国历史上最气势恢宏的一个时代。活跃在这个时代的士人,即使不能全部称为英雄,至少也当属有作为