【摘 要】
:
为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK(a Text Clustering algorithm Based on Improved BIRCH and K-neare
【基金项目】
:
十二五科技项目面向外文科技文献信息的知识组织体系建设与应用示范(No.2011BAH10B04), 国家林业局重点项目
论文部分内容阅读
为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK(a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚
其他文献
微博话题检测是当前研究的热点,提出一种基于复杂网络重叠社团发现的微博话题检测方法。该方法对一段时间内的微博数据进行预处理,在分词后,根据词性以及词的时域分布抽取出
继成功实现经济“软着陆”后,通货紧缩问题已成为当前经济中最为棘手的问题。有人认为信贷萎缩是当前通货紧缩的最重要原因和表现。研究所谓“信贷萎缩”有助于我们加深对通货
为了准确配准印鉴图像,为高仿真印鉴的真伪识别做好准备,提出利用印鉴边缘图像SIFT(Scale Invariant Feature Transform)特征的相似性和空间关系相结合的配准方法。采用邻域搜索法提取待测印鉴与预留印鉴的二值边缘图像,在印鉴边缘图像中提取SIFT特征,并根据相似性匹配。利用印鉴边缘图像SIFT特征匹配点对的空间关系剔除错误匹配,提高配准效率。利用RANSAC方法估计两印鉴
数字水准仪被广泛应用于高程测量,须经检定确保其量值准确可靠满足规程要求后才可用于测量。现行有效的JJG425--2003《水准仪检定规程》中提出“专用光管法”和传统的“室外法
针对工业生产过程中噪声往往为有色噪声的情况,提出一种改进的子空间辨识方法。传统的子空间辨识方法在系统存在有色噪声时辨识效果不佳,改进方法则采用变换系统模型形式来克服
为提高电动负载模拟器的动态性能和加载精度,针对广义连接刚度对系统的动态响应、加载精度和稳定性的影响,设计一种广义连接刚度测试系统,在构建系统的硬件结构和软件功能的
信贷评分法(以下简称评分法)是利用统计手段,对贷款申请人和已有借款人的违约违规的可能性进行预测的方法。评分法出现于20世纪50年代,现已广泛运用于消费信贷业务、尤其是信用卡业务
在前面的分析中,我们对金融和金融资源进行了特定含义的界定和分析,从理论上揭示了金融及其金融资源的本质特征,为我们以后的研究和探讨提供了理论前提。本文将针对金融资源开发