基于Gene shaving的文本聚类方法及改进

来源 :厦门大学 | 被引量 : 0次 | 上传用户:chen126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Gene shaving是一种针对基因数据的特殊高维聚类方法,该方法解决的是从大量繁杂的基因中聚类出少量真正影响患病的相似基因组问题。类比文本数据,希望能够从众多的词中聚类出少量相似的关键词组,同时这些关键词组在文档中不同的重要性体现能够区分文档。基于此,想到将Gene shaving方法合理嫁接到文本数据上,同时在方法改进上引入有监督聚类,并完成模拟验证和实证分析。本文首先将Gene shaving原始方法用R语言复现,总结其算法流程和特点。在方法嫁接合理性分析中发现,基因数据与文本数据有很多的共同点,而方法应用最大困难来自于文本数据词-文档矩阵的稀疏性。针对文本稀疏性问题,将原算法中求解第一主成分的步骤由调用对高维稀疏矩阵进行truncated svd分解的快速算法替代。并对R中五种相关算法包进行耗时比较,最终选择调用基于“SVDLIBC”库的sparsesvd包装器,提升算法运行速度。接着在方法改进部分,对于数据样本矩阵X引入一个可监督的连续的Y,改进后的方法能够在两个维度上分别完成变量的聚类和样本预测。用R语言完成算法改进后,设置从简单到复杂的四组模拟数据,逐步验证了算法的正确性和有效性。引入聚类的评价指标,并基于常规模拟数据对有监督聚类改进后的方法和无监督聚类的原方法进行对比,发现有监督聚类在样本预测层面明显强于无监督聚类。最后文本数据实证分析部分,用手机评价数据进行解决稀疏性问题后的Gene shaving方法应用,最终聚类出四类关键词组,每一类关键词组都反映手机一方面的核心性能,同时这些核心性能能够区分不同类型的手机。用招聘信息数据完成有监督聚类改进后的方法应用,最终聚类出两类关键词组,每一类关键词组间具有一定相似性,同时能够较好地预测工资。
其他文献
学位
学位
学位
学位
随着数据收集技术的不断发展,在气象、医学、经济等领域的许多数据都出现了明显的函数特征,这类数据就被称为函数型数据。传统分析方法在处理这类数据时不仅容易造成“维数灾难”,还容易丢失采样点之间的信息。为此,函数型数据分析方法应运而生,其思路是将观测到的数据视为一个函数,进而对函数曲线进行统计分析。目前,许多传统的分析方法和模型在函数型数据中都得到了推广,其中函数型线性回归模型已成为一个热门的研究课题。
学位
学位
学位
变量选择一直以来都是统计学中的一个重要问题。在使用线性模型拟合数据时,能否选择出合适的、对被解释变量有着较强影响的解释变量,对模型的预测精度和解释效果都有着极大的影响。近年来,Lasso方法及其拓展方法很受欢迎,这一类惩罚似然方法能够同时进行变量选择和参数估计,还具有良好的统计性质。于是又引出了贝叶斯Lasso等方法。本文将贝叶斯自适应组Lasso方法引入存在隐状态的混合线性模型中,探究具有隐状态
学位
学位
学位