基于信息熵的权重计算方法在隐含狄利克雷分布中的探索及研究

被引量 : 0次 | 上传用户：javashhai2

【摘要】

：

隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是在文本挖掘领域一种常用的主题模型。LDA及其变体已广泛应用于发现文本文档中的潜在主题。然而,在传统LDA生成的主题中

【作者】

：

杨楷

【发表日期】

：

2004年期

【关键词】

：

隐含狄利克雷分布主题模型权重计算方法信息熵

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是在文本挖掘领域一种常用的主题模型。LDA及其变体已广泛应用于发现文本文档中的潜在主题。然而,在传统LDA生成的主题中,部分主题倾向于包含一些与该主题不相关的词,我们称之为“杂质词”。这种“杂质词”将导致LDA生成主题的可解释性变差,最终将会产生低质量的主题聚类结果。提高主题质量的一种可能方法是减少主题中这些“杂质词”的数量。然而,当前只有少量工作探究这种“杂质词”产生的原因,也较难找到一个合适的解决方案。在本论文的工作中,我们将探讨这些“杂质词”产生的原因。经过实验观察,我们发现文档中的某些词倾向于向主题中引入“杂质词”。我们还发现这种词有着明显的特点:它们分散在许多主题上,从而这导致了它们对不同主题的分辨能力较低。在我们的论文中,我们把这种词称为“低主题区分度词”。也就是说,这种“低主题区分度词”是LDA生成的主题中产生“杂质词”的一个重要的原因。在本论文中,我们提出了一个称为TWLDA的新模型。该模型提供了一种方法来找出这些词,并降低他们对LDA的结果的影响。首先,我们使用基于信息熵的权重计算方法来为“低主题区分度词”分配较低的权重。接着,利用得到的权重,我们提出了一种方法来降低吉布斯抽样(Gibbs Sampling)过程中低权重词(也就是“低主题区分度词”)对LDA结果影响。该方法可以通过减少文档中“低主题区分度词”的数量,从而降低其引入“杂质词”的能力,最终达到减少“杂质词”数量的目的。然而,我们提出的TWLDA是基于标准LDA的变种模型,其无法应用到其他LDA的变种上。我们将TWLDA拓展为一个称为TWFW(Term Weighting Framework)的算法框架。该框架可以被应用于所有LDA的变种模型中。我们的实验结果表明,所提出的框架可以显著提高LDA及其变种模型的性能。最后,我们将TWFW应用到一个实际的工程项目中,并表明其在工程应用领域也有较好的效果。

其他文献

德宏州少数民族传统文化保护与发展探析

<正>德宏傣族景颇族自治州位于云南省西部,与缅甸接壤。千百年来,在特殊的社会、地理环境下,在适应社会发展和长期的相互交往过程中,孕育和创造了形态多样的文化艺术,形成了

期刊

少数民族传统文化民族民间传统文化保护名录德宏州国家非物质文化遗产发展探析

文化透视下的中西饮食差异

饮食与文化关系密切,不同的民族有不同的饮食文化。中西方国家在饮食观念、饮食内容和饮食方式等方面体现着巨大的差异。从文化角度对中西饮食差异进行探究,将有助于人们跨越

期刊

饮食文化差异

透视《汤姆叔叔的小屋》所展现的基督英雄主义

斯托夫人的代表作《汤姆叔叔的小屋》是19世纪美国反蓄奴制运动里最伟大的宣言书,它使北方振奋起来,决心以武力对付坚持蓄奴制的南方;它也忠实地记录了美国南方黑奴的悲惨命

期刊

斯托夫人《汤姆叔叔的小屋》汤姆叔叔基督英雄主义

论李可染“黑山黑水”风格的成因及其审美意蕴

<正>李可染先生是中国著名的山水画家,他用毕生精力致力于中国画的变革与发展,开辟了当代中国山水画的崭新面貌,为中国画的创新做出了不朽的贡献。他吸收中国绘画之传统精华,

期刊

李可染山水画审美意蕴

论主题酒店设计中酒店文化的展示

主题酒店反映的是一种酒店文化,其设计注重主题酒店文化的展示。文章通过对主题酒店文化的探究,提出展示主题酒店文化的主题酒店设计方法,从酒店建筑外观、室内设计与装饰装

期刊

主题酒店酒店设计酒店文化

从礼貌原则看男女会话性别差异

礼貌原则是语用研究领域的一个很重要的概念。在言语活动中,遵循礼貌原则对于人与人之间能否实现沟通起着重要的作用,也是实行合作性会话的重要方面。在日常交际会话中礼貌原

期刊

性别差异礼貌原则社会文化因素

语境本体研究与对外汉语教学

近二十年来,语境本体研究一直得到国内语言学界学者们的持续关注,语境理论在相关学科中也不断得到应用与发展。笔者简要梳理了与对外汉语教学密切相关的现阶段语境本体研究成

期刊

语境定义分类对外汉语教学

温州廊桥文化的保护与开发

温州泰顺古廊桥的数量、保存质量以及建造历史和艺术价值都堪称世界之最,被世界桥梁专家们誉为"世界廊桥之乡"。然而在经济日益发展、城镇建设步伐加快的今天,保护廊桥的重要

期刊

温州廊桥文化保护与开发申报世界文化遗产

博宇公司财务风险及其防范

本文以博宇公司披露的财务报表为基础,根据其财报数据采取一些主要指标分析该企业存在的财务风险,进而阐述造成财务风险的原因,提出防范风险的建议。

期刊

财务风险风险控制防范措施

1t固定式矿车车架的轻量化设计

针对矿车零部件安全储备过高、运输中无用功耗过大的问题，运用轻量化的思想，应用ANSYS有限元分析软件对使用量最大的1t固定式矿车的车架，进行了典型工况下的应力和变形分析，提出

期刊

车架轻量化有限元分析应力

基于信息熵的权重计算方法在隐含狄利克雷分布中的探索及研究

与本文相关的学术论文