基于群体智能的半结构化藏文文本聚类算法

来源 :第十三届中国Rough集与软计算学术会议、第七届中国Web智能学术研讨会、第七届中国粒计算学术研讨会联合学术会议 | 被引量 : 0次 | 上传用户:renx2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  为了将群体智能技术应用于半结构化的藏文Web文本聚类中,提出了基于群体智能的半结构化藏文Web文本聚类算法SCAST (A Semi-structured Tibetan Text Clustering Algorithm Based on Swarm Intelligence),充分考虑群体智能技术对藏文文本聚类准确性和时间效率的影响.SCAST算法包含三个主要步骤:(1)运用向量空间模型表示藏文文本信息,将藏文文本和智能蚁群随机地放置于文本向量空间中;(2)智能蚂蚁随机地选择藏文文本,计算藏文文本在当前局部区域内的相似性,获得拾起或者放下文本的概率,进而决定是否"拾起","移动","放下"藏文文本;(3)通过多次迭代训练,将藏文文本按其相似性聚集在一起,得到最终聚类结果.大量真实藏文Web文本数据上的实验结果表明:相比于传统的k-means聚类算法,基于群体智能的藏文文本聚类算法在聚类准确率上平均提高约7.8%.
其他文献
采用具有制品形状的整体织物作增强材料,有利于提高橡胶材料的力学性能。本文探讨了环状织物的设计方法和其在传动带、传送带的应用,提出了齿形带织物的结构。成型织造是近年来新发展的曲面织物织造技术,在简要介绍其织造原理的基础上,采用玻纤纱织制出外凸形带织物和头盔形曲面织物,外凸形带织物可直接用于缠绕成型轮胎状回转体。
会议
本文讨论了EPDM/POE/MVQ不同共混比对胶料物理性能、耐热性、耐油性和绝缘性能的影响,结果表明:采用动态硫化的POE/MVQ热塑性弹性体与EPDM共混胶料性能优于EPDM和MVQ直接共混胶料;双螺杆挤出机动态硫化POE/MVQ热塑性弹性体的综合性能最佳。随着POE/MVQ用量的增加,改善了共混胶的力学性能、绝缘性、耐寒性、耐油性、耐热性;先将POE与MVQ动态硫化制备热塑性弹性体然后与EPD
会议
大数据给现有的数据分析与挖掘技术带来前所未有的挑战,研究高效的、可以揭示复杂数据的隐含结构的学习方法已成为机器学习和数据挖掘领域所关心的主要问题之一。本报告针对大数据的高效特征选择和聚类问题,介绍了本人课题组的一些最新研究进展。首先,从样本表征整体、样本批量增加角度建立了高效特征选择算法;其次,针对符号型数据、混合型数据和非平衡数据发展了新的聚类算法;最后,对大数据处理技术进行了展望。
会议
提出了基于拟阵的粗糙集,并通过拟阵闭包算子给出了相应的拟阵上近似算子和下近似算子,同时研究了上下近似的性质。进一步,利用拟阵与二元关系的相互转换,研究了基于拟阵粗糙集与基于关系粗糙集之间的关系。
在多粒度时间序列研究中不确定性问题是时间序列数据挖掘研究中的重要课题。时间序列时序粒度本身的不稳定是一种广泛存在现象,也是时间序列数据挖掘困难的一个重要原因之一。对于这个问题,首先基于一个不确定性多粒度时间序列的基础模型对时间粒度不确定性进行了计论,并且提出了稳定时序粒度的基本策略。由于聚类分析在时间序列数据挖掘中的基础价值,一个不确定性粒度时间序列相似性算法框架被提出来解决这类数据的聚类问题。最
粒度支持向量机(Granular support vector machine,GSVM)通过选取粒的代表点构成精简训练集以提高支持向量机(Support vector machine,SVM)的学习效率,然而选取个别代表点有可能丢失部分重要分类信息,导致模型泛化能力不高。针对这一问题,提出基于粒分布的GSVM(Distribution based GSVM,DGSVM)加速训练方法,该方法依照粒
科学与工程实践中一大类问题都可以归结为优化问题,粒子群优化(PSO)算法作为一种新型的群智能优化算法,算法简单易实现,可调参数少,已得到广泛的研究与应用。本报告介绍了PSO算法的基本原理和更新机制,论述了离散PSO算法的研究进展和应用情况,介绍了几种离散化策略的建立、更新方式、计算模式和特点。最后介绍我们在离散PSO算法的构建及其应用情况,分享相关的研究成果和体会,并讨论了离散PSO的发展趋势和进
会议
在不完备信息系统中,可变精度分类关系是限制容差关系的改进形式,但其并未考虑数据集中属性的测试代价。为解决这一问题,提出了基于测试代价敏感的可变精度分类粗糙集模型,并将其与基于容差关系、非对称相似关系的粗糙集模型以及传统可变精度分类粗糙集模型进行了对比分析。进一步地,通过分析利用传统启发式算法求解约简未考虑测试代价以及利用回溯算法求解约简的时间消耗问题,提出一种新的属性重要度测量,并在此基础上设计了
智能信息处理是人工智能研究的主要内容之一,而不确定信息的表示与分析是智能信息处理的重点与难点。粒计算(Granular Computing)是近年来计算机领域出现的一种以模拟人类处理信息机制的计算理论与方法。该理论认为信息或知识是有粒度的,信息或知识的不确定性是由于粒度太粗产生的,它对不确定性给出了新的解释。本报告将介绍一种具体的粒计算模型——粗糙集理论,以及知识约简中不确定性的分析。目前,大数据
会议
最小测试代价属性约简问题是数据挖掘和机器学习中的重要问题。最近,一个信息增益算法被设计用于解决该问题,但该算法的效果并不理想。提出一个模拟退火算法解决最小测试代价属性约简问题。算法首先随机产生一批属性子集作为原子解。然后每个原子解通过简单的方法产生其邻居解。再按照Metropolis准则保留原始原子解或者用其邻居解来替换。最后选出这批原子解中测试代价最小的作为结果输出。该算法在四个UCI数据集上运