论文部分内容阅读
在信息化时代,文献数据呈爆炸式增长.面对海量无标签的文献数据,无监督文本聚类能够快速、高效地对大规模数据重新组织和归纳.然而,影响文献聚类效果的因素是多方面的,从数据处理到文本表示方法到聚类算法的选择,在任意一个环节不同的选择产生的结果可能大相径庭;且在各环节方法种类多样使得文献聚类结果难以解释和评估,对做好文献聚类工作造成了很大困扰.为此,提出了一个完整的文献聚类结果可视分析框架.该框架包含数据预处理、文本表示、文本聚类、聚类结果可视分析各个环节,采用语料结构可视化、语料内容可视化、文本向量维度可