论文部分内容阅读
Gene shaving是一种针对基因数据的特殊高维聚类方法,该方法解决的是从大量繁杂的基因中聚类出少量真正影响患病的相似基因组问题。类比文本数据,希望能够从众多的词中聚类出少量相似的关键词组,同时这些关键词组在文档中不同的重要性体现能够区分文档。基于此,想到将Gene shaving方法合理嫁接到文本数据上,同时在方法改进上引入有监督聚类,并完成模拟验证和实证分析。本文首先将Gene shaving原始方法用R语言复现,总结其算法流程和特点。在方法嫁接合理性分析中发现,基因数据与文本数据有很多的共同点,而方法应用最大困难来自于文本数据词-文档矩阵的稀疏性。针对文本稀疏性问题,将原算法中求解第一主成分的步骤由调用对高维稀疏矩阵进行truncated svd分解的快速算法替代。并对R中五种相关算法包进行耗时比较,最终选择调用基于“SVDLIBC”库的sparsesvd包装器,提升算法运行速度。接着在方法改进部分,对于数据样本矩阵X引入一个可监督的连续的Y,改进后的方法能够在两个维度上分别完成变量的聚类和样本预测。用R语言完成算法改进后,设置从简单到复杂的四组模拟数据,逐步验证了算法的正确性和有效性。引入聚类的评价指标,并基于常规模拟数据对有监督聚类改进后的方法和无监督聚类的原方法进行对比,发现有监督聚类在样本预测层面明显强于无监督聚类。最后文本数据实证分析部分,用手机评价数据进行解决稀疏性问题后的Gene shaving方法应用,最终聚类出四类关键词组,每一类关键词组都反映手机一方面的核心性能,同时这些核心性能能够区分不同类型的手机。用招聘信息数据完成有监督聚类改进后的方法应用,最终聚类出两类关键词组,每一类关键词组间具有一定相似性,同时能够较好地预测工资。