基于信息熵的权重计算方法在隐含狄利克雷分布中的探索及研究

被引量 : 0次 | 上传用户:javashhai2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是在文本挖掘领域一种常用的主题模型。LDA及其变体已广泛应用于发现文本文档中的潜在主题。然而,在传统LDA生成的主题中,部分主题倾向于包含一些与该主题不相关的词,我们称之为“杂质词”。这种“杂质词”将导致LDA生成主题的可解释性变差,最终将会产生低质量的主题聚类结果。提高主题质量的一种可能方法是减少主题中这些“杂质词”的数量。然而,当前只有少量工作探究这种“杂质词”产生的原因,也较难找到一个合适的解决方案。在本论文的工作中,我们将探讨这些“杂质词”产生的原因。经过实验观察,我们发现文档中的某些词倾向于向主题中引入“杂质词”。我们还发现这种词有着明显的特点:它们分散在许多主题上,从而这导致了它们对不同主题的分辨能力较低。在我们的论文中,我们把这种词称为“低主题区分度词”。也就是说,这种“低主题区分度词”是LDA生成的主题中产生“杂质词”的一个重要的原因。在本论文中,我们提出了一个称为TWLDA的新模型。该模型提供了一种方法来找出这些词,并降低他们对LDA的结果的影响。首先,我们使用基于信息熵的权重计算方法来为“低主题区分度词”分配较低的权重。接着,利用得到的权重,我们提出了一种方法来降低吉布斯抽样(Gibbs Sampling)过程中低权重词(也就是“低主题区分度词”)对LDA结果影响。该方法可以通过减少文档中“低主题区分度词”的数量,从而降低其引入“杂质词”的能力,最终达到减少“杂质词”数量的目的。然而,我们提出的TWLDA是基于标准LDA的变种模型,其无法应用到其他LDA的变种上。我们将TWLDA拓展为一个称为TWFW(Term Weighting Framework)的算法框架。该框架可以被应用于所有LDA的变种模型中。我们的实验结果表明,所提出的框架可以显著提高LDA及其变种模型的性能。最后,我们将TWFW应用到一个实际的工程项目中,并表明其在工程应用领域也有较好的效果。
其他文献
<正>德宏傣族景颇族自治州位于云南省西部,与缅甸接壤。千百年来,在特殊的社会、地理环境下,在适应社会发展和长期的相互交往过程中,孕育和创造了形态多样的文化艺术,形成了
饮食与文化关系密切,不同的民族有不同的饮食文化。中西方国家在饮食观念、饮食内容和饮食方式等方面体现着巨大的差异。从文化角度对中西饮食差异进行探究,将有助于人们跨越
斯托夫人的代表作《汤姆叔叔的小屋》是19世纪美国反蓄奴制运动里最伟大的宣言书,它使北方振奋起来,决心以武力对付坚持蓄奴制的南方;它也忠实地记录了美国南方黑奴的悲惨命
<正>李可染先生是中国著名的山水画家,他用毕生精力致力于中国画的变革与发展,开辟了当代中国山水画的崭新面貌,为中国画的创新做出了不朽的贡献。他吸收中国绘画之传统精华,
主题酒店反映的是一种酒店文化,其设计注重主题酒店文化的展示。文章通过对主题酒店文化的探究,提出展示主题酒店文化的主题酒店设计方法,从酒店建筑外观、室内设计与装饰装
礼貌原则是语用研究领域的一个很重要的概念。在言语活动中,遵循礼貌原则对于人与人之间能否实现沟通起着重要的作用,也是实行合作性会话的重要方面。在日常交际会话中礼貌原
近二十年来,语境本体研究一直得到国内语言学界学者们的持续关注,语境理论在相关学科中也不断得到应用与发展。笔者简要梳理了与对外汉语教学密切相关的现阶段语境本体研究成
温州泰顺古廊桥的数量、保存质量以及建造历史和艺术价值都堪称世界之最,被世界桥梁专家们誉为"世界廊桥之乡"。然而在经济日益发展、城镇建设步伐加快的今天,保护廊桥的重要
本文以博宇公司披露的财务报表为基础,根据其财报数据采取一些主要指标分析该企业存在的财务风险,进而阐述造成财务风险的原因,提出防范风险的建议。
针对矿车零部件安全储备过高、运输中无用功耗过大的问题,运用轻量化的思想,应用ANSYS有限元分析软件对使用量最大的1t固定式矿车的车架,进行了典型工况下的应力和变形分析,提出