论文部分内容阅读
现有的R-树空间聚类技术在通常通过随机指定或者计算空间数据间的欧氏距离来选取聚类中心,而未考虑空间数据间的主题相关度。这些导致聚类结果受初始k值影响,空间数据间的关联仅仅是基于地理位置的。针对此种情况,提出了一种基于k-means++的动态构建空间主题R树(TR-tree)方法。首先,在传统的k-means++算法上,通过聚类测度函数动态地确定k个聚类簇,并在聚类测度函数中引入潜在狄利克雷分布(LDA)模型来计算每个空间数据文本的主题概率,从而加强空间数据间的主题关联度;其次,通过主题概率选取概率最