一种CF树结合KNN图划分的文本聚类算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:kxlzyc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK(a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚
其他文献
微博话题检测是当前研究的热点,提出一种基于复杂网络重叠社团发现的微博话题检测方法。该方法对一段时间内的微博数据进行预处理,在分词后,根据词性以及词的时域分布抽取出
继成功实现经济“软着陆”后,通货紧缩问题已成为当前经济中最为棘手的问题。有人认为信贷萎缩是当前通货紧缩的最重要原因和表现。研究所谓“信贷萎缩”有助于我们加深对通货
为了准确配准印鉴图像,为高仿真印鉴的真伪识别做好准备,提出利用印鉴边缘图像SIFT(Scale Invariant Feature Transform)特征的相似性和空间关系相结合的配准方法。采用邻域搜索法提取待测印鉴与预留印鉴的二值边缘图像,在印鉴边缘图像中提取SIFT特征,并根据相似性匹配。利用印鉴边缘图像SIFT特征匹配点对的空间关系剔除错误匹配,提高配准效率。利用RANSAC方法估计两印鉴
数字水准仪被广泛应用于高程测量,须经检定确保其量值准确可靠满足规程要求后才可用于测量。现行有效的JJG425--2003《水准仪检定规程》中提出“专用光管法”和传统的“室外法
针对工业生产过程中噪声往往为有色噪声的情况,提出一种改进的子空间辨识方法。传统的子空间辨识方法在系统存在有色噪声时辨识效果不佳,改进方法则采用变换系统模型形式来克服
为提高电动负载模拟器的动态性能和加载精度,针对广义连接刚度对系统的动态响应、加载精度和稳定性的影响,设计一种广义连接刚度测试系统,在构建系统的硬件结构和软件功能的
信贷评分法(以下简称评分法)是利用统计手段,对贷款申请人和已有借款人的违约违规的可能性进行预测的方法。评分法出现于20世纪50年代,现已广泛运用于消费信贷业务、尤其是信用卡业务
在前面的分析中,我们对金融和金融资源进行了特定含义的界定和分析,从理论上揭示了金融及其金融资源的本质特征,为我们以后的研究和探讨提供了理论前提。本文将针对金融资源开发