基于LDA模型的大规模文本挖掘算法研究

来源 :软件 | 被引量 : 0次 | 上传用户:huihuishou4001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对海量文本信息的挖掘与处理是目前文本挖掘领域的一个热点问题,LDA模型是文本挖掘领域中应用广泛的一种主流模型。LDA模型能够通过快速学习和训练,检测出文本集中潜在的主题词。传统算法对速度和内存优化并不明显。文章从几个不同的方面阐述了LDA模型及其扩展模型在处理大规模文本数据时的应用,从参数估计、在线学习和并行优化方面进行了比对,对其中在线模型进行了实验验证,引入狄利克雷参数、BP信念传播算法,在几组数据集上进行了实验,分析其性能。
其他文献
胃是我们人体的主要消化器官,它承担着消化、贮藏和分泌消化液的作用。当食物进入到胃里时,胃就会将大块食物研磨成小块(又称物理消化),并将食物中的大分子降解成较小的分子(又称化学消化),以便于进一步被吸收。而且胃酸还会把通过食物进入人体的细菌杀死,以保证人体不受细菌的侵蚀而损害健康。  但是,在生活中又有多少人的胃是完全健康的呢?不少人被消化不良、胃胀气、胃食管返流、胃炎等困扰着。怎么办?  胃病是一
在烹饪过程中,去皮的茄子稍有耽搁就会变色发黑,卖相相当难看。如何防止茄子变色发黑呢?瞧我妙招!
有次跟朋友聊天,提到墨鱼,我说:“小时候喜欢闻刚烧好墨鱼的那股特殊香气,整只墨鱼圆圆地隆起,像巨蛋。现在的墨鱼一烧一泡水,到口烂糊、味怪。”朋友说:“日本人喜欢吃墨鱼头部下面
目的探讨混合型肝细胞-胆管细胞癌(combined hepatocellular carcinoma-cholangiocarcinoma,cHCC-CC)的钆塞酸二钠(gadolinium-ethoxybenzyl-diethylenetriamine pentaacetic
课堂问题的设计是师生进行对话、交流和互动的平台,是教师获得教学反馈、调控教学手段的重要方法。但教师在提问时往往抓着"语言"不放,对"思维"着力不多。为培养小学生的思维
为建立高效的增城菜心和连州菜心小孢子培养体系,本研究以3个增城菜心和3个连州菜心品种为试材进行小孢子培养,研究不同基因型、细胞器抗氧化剂(VcNa)和植物生长调节剂(BR和TDZ)
面对日益严峻的能源危机和环境问题,高耗能、高排放的燃油汽车将被低耗能、零排放、低噪声的电动汽车所替代,这已然成为现代社会发展的趋势。电动汽车作为新兴的清洁高效智能
在人力资本积累模型基础上构建理论分析框架,从空间视角解释人才集聚、技术创新对经济增长的影响机制,以中国2005—2017年省域面板数据为基础构建空间杜宾模型。研究结果表明
为了得到信息系统的最小属性约简,提出了基于0-1规划的最小属性约简算法.首先,由区分矩阵定义了极小区分集的概念.其次,将信息系统的最小属性约简问题转化为0-1规划,从而给出