基于隐含主题的文本谱聚类算法研究

来源 :贵州大学 | 被引量 : 2次 | 上传用户:jsw10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类能对无标签的文本数据在没有任何先验知识的情况下进行自动分类,是一种无监督的方法。谱聚类算法(Spectral Clustering,SC)通常被认为是一种较为高效的算法,它以谱图理论作为基础,将数据集映射成为无向带权图,将对数据类别的划分转化为对图的划分问题。与常见的K-means等算法相比,谱聚类算法能够在不同的样本空间上进行聚类处理,并且能够收敛到最优解。它能够将比较复杂的聚类处理问题转化成相对较为简单的代数求解问题。谱聚类算法也存在一些不足之处,最常见的就是相似度矩阵的构造问题和需要提前确定聚类数目的问题。谱聚类算法的效果很大程度上取决于相似度矩阵。传统计算文本相似度的方法是利用向量空间模型的特征词向量进行计算。向量空间模型具有高维稀疏以及缺乏语义信息等缺点。针对文本相似度计算问题,本文通过在传统词向量模型的基础上引入LDA(Latent Dirichlet Allocation)模型的隐含主题信息,对特征词和隐含主题的相似度进行加权来计算文本的相似度。然后利用词性和权值大小挑选出更能体现文本信息的特征词,对特征词进行了缩减。针对谱聚类算法需要提前确定聚类数目的问题,本文在经典谱聚类算法NJW算法的基础上,利用本征间隙法原理求解拉普拉斯矩阵的各个特征值之间的差值来获得文本聚类的数目。由此本文提出了基于主题特征加权的自适应谱聚类算法(Adaptive Feature Weighting–NJW,AFW-NJW)。该算法充分利用词项特征和主题特征计算文本相似度。由于LDA模型需要人工确定主题数目,本文利用主题之间平均相似度性质来确定最佳的主题个数。通过实验,本文验证了LDA模型自动确定主题个数以及AFW-NJW自动确定聚类数目的有效性,确定了在进行文本相似度计算时隐含主题特征的权值大小。并对提出的AFW-NJW算法与传统的K-means算法以及NJW算法进行了对比实验,结果表明AFW-NJW算法比K-means算法和NJW算法NMI值有明显提升。
其他文献
目的探讨激光荧光检测仪(DIAGNOdent)检测乳牙面龋时测量值分布的规律及临床意义,进一步了解厂商给出的DIAGNOdent界值是否适用于诊断乳牙早期龋。方法选择72名5—6岁儿童的5
目的了解长期低剂量接触电离辐射对医用放射工作人员甲状腺功能的影响。方法采用典型抽样法,选取江西省11家三级甲等医院369名在职放射工作人员为调查对象(分为放射诊断组、
本文主要阐述了蔬菜速冻前烫漂的作用、方法和发展趋势,并对烫漂处理中所存在的问题及改进方法进行了讨论。
铁磁性材料在日常生活、航空航天、国防军工、等诸多领域有广泛应用。其中,铁基合金材料因具有良好的综合性能,低廉的价格,倍受关注。最具代表性的物质是DO3型Fe3Si合金材料
在大数据视域下,计算机技术已经成为现代社会人们日常生活中的必备技术,是人们参与学习、生活、工作的必要工具之一。信息技术被广泛运用于各个领域中,给人们带来了极大的便
中国和苏丹自建交60年以来,政治互信日益巩固,经贸合作不断加深。上世纪90年代中期,中国石油进入苏丹,帮助苏丹建立了涵盖勘探开发、管道运输、炼油化工和油品销售等上中下游一体
报纸
社会经济的快速发展和教育体制改革进程的不断深化,为高等教育的可持续发展提供了重要的契机和条件,营造了良好的社会大环境,高职高专院校作为我国高等教育的重要组成部分,为
'比较诗学'作为一个学术视域,正式产生于西方20世纪60年代.宗白华却早自20、30年代始,就已经涉足比较诗学研究了.从比较诗学视域来考察宗白华的诗学和美学研究,凸现
综述了苯亚硒酸酐的性质、制备,及其在甾酮脱氢和甾醇氧化反应中的应用。