基于Multi-agent的分布式文本聚类模型

来源 :计算机学报 | 被引量 : 0次 | 上传用户:victor9808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet网络大数据与日俱增,当前亟需设计能够处理大规模半结构化和无结构化文本数据的新型聚类方法。现有工作的不足体现在:应用的文本集较为单一,对半结构和无结构的Web文本进行聚类的准确性较低,当文档规模较大时聚类的时效性无法得到保证。针对上述不足,提出新的基于群体智能的文本聚类模型Switch(a Swarm intelligence based text clustering algorithm),支持包括藏文、中文、英文等多语言的文本聚类。基本思想为:构建文本的向量空间模型,借助自然语言处理和数据预处理技术得到由特征向量构成的文本集合;对群体智能文本聚类算法的参数进行初始化,不同智能体可以在二维文本空间上任意移动,计算其所在网格区域文本与其他样本的相似度,利用概率转换函数求取智能体拿起和放下样本的概率,进而实现文本聚类。提出分布式动态文本流聚类的multi-agent架构,将这一架构应用于群体智能文本聚类算法中,分布式工作环境被设计成相互通信的软agents集合,设计了相似度计算,智能体状态感知,文本解析三类智能体。通过解决智能体状态同步、处理器负载均衡和处理器之间通信的代价问题,将计算任务分成不同子任务,在多处理器上分布执行。此外,阐述了基于multi-agent的分布式群体智能文本聚类方法的工作原理,给出一种分布式通信架构,各种智能体相互通信,相互协作完成文本聚类工作。基于multi-agent通过JADE中间件实现集群上的分布式文本聚类,优势在于:分布式计算和大内存处理较单机具有更好的处理能力,借助JADE中间件能够使智能体间相互通信及协作,实现高效的文本聚类。在大量真实的半结构化包含藏文、中文和英文多语言的Web文本数据集上进行实验,以藏文为例,实验结果表明:相比于k-means和单节点上的群体智能聚类算法,提出的分布式架构下文本聚类算法准确性平均高出12.2%和3.8%,时间代价平均缩减了73.0%和50.6%。在n个节点集群下agents数量介于150-250之间时,文本聚类时间代价近似可以达到单节点的1/n。
其他文献
本文主要从立意、灵感来源、故事产生的激励事件、人物设置和叙述方式等方面展开,讲述编写《霓虹小镇》剧本时的思考过程和构思细节。知青那个年代的人们总是伴随着苦难的岁
《石倉唐詩選》是曹學佺編纂的《石倉十二代詩選》中的唐詩選部分,過去少有人研究它,可以借鑒的材料相對缺乏。所以本文從文本出發,結合曹學佺同時代人所選唐詩,總結出其自身
黄淳耀,嘉定文人,有诗文集《陶庵集》二十二卷。他处于明末清初之际,特殊的历史境遇、时代风尚造就了一个复杂、丰满立体、具有典型代表的文人形象:他徘徊于求仕与归隐的二难
本文探讨唐传奇的教化色彩。孔子所创立的儒家思想是中国封建社会的主导思想,其中包括“诗言志”的儒家文学观。儒家文学观强调文学的现实功用,自提出以来,经历代封建统治者
李昭玘(?—1126),字成季,济州巨野(山东菏泽)人,元丰二年(1079)进士。与孙觉、苏轼等从游,有《乐静集》三十卷存世。李昭玘处在儒家思想复兴新变以及政治、社会“穷则变”的
石珤是明中期茶陵派骨干人物,出生于仕宦家庭,自幼接受良好教育,以《易经》为家学渊源。因为人耿介清廉,石珤仕途非一帆风顺,三次乞归,其思想观念和文学观念皆受影响。石珤一
刘跂“贤而能文”“以文学知名”,在当时社会产生了一定的影响力。他创作的诗文不仅数量多,而且颇有可观之处。这样一位诗文俱佳的文人,在宋代文坛理应占有一席之地。但长期
基于某型船用燃气轮机低压压气机转子的实体模型,应用网格划分软件Hypermesh,通过手动网格划分建立了压气机转子的有限元模型。利用数值仿真软件求解了转子的临界转速及转子
名师工作室兴起于我国基础教育新课程改革的前期,它的原形是从科技界和文艺界的“工作室”体制中获得启发而应用教育事业之中,可以说是一种基于教师自我成长的新型研修方式,因此
玻璃体注气固定眼球后极部视网膜破孔,是国际上开展的一种新手术方法,它不用在巩膜外对裂孔进行封闭,而是向玻璃体内注入适量气体(六氟化硫SF6或过氟丙烷C3F6)。目前这种方法已