基于样本加权的文本聚类算法研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:ldpjk77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法。实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果。该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的
其他文献
简要分析了h指数模型的的发展,重点分析了Glanzel-Schubert期刊h指数模型优点与可能存在的问题,并通过实例统计分析证实了常数c的理论值为1,且篇均被量的幂被高估了,在此基础
国家科技文献中心(NSTL)已成为国家科技文献信息资源的保障基地、国家科技文献信息服务的集成枢纽和国家科技文献信息服务发展的支持中心。随着网络化资源和服务集成的日益普及
探讨了钢丝网复合砂浆加固混凝土构件中界面粘结的破坏机理,提出通过植筋来改善其粘结强度.在此理论基础上,进行了对用钢丝网复合砂浆加固过的混凝土试块的界面粘结破坏实验,
超磁致伸缩材料(GMM)是一种具有双向可逆换能效应(磁-机、机-磁)的新型功能材料,利用其逆效应在超磁致伸缩执行器(GMA)驱动过程中感知出传感信号,可实现自感知执行器。探讨超磁致伸缩
随着Folksonomy在实际应用中的日渐普及和声望的不断提高,其在应用中存在的问题也逐渐显露出来。恶意Tag和对用户检索行为无效或低效的TagSpam严重地影响了Folksonomy的实际应
本文首先从信息源范围、信息源结构类型、信息存在状态、信息交流渠道等方面分析了信息源的特点,论述了通过网络信息源结构、内容、访问流量的挖掘实现对采集信息源进行评估与
情感分类及其应用是目前研究的一个热点,是自然语言处理,机器学习和心理学等多学科交叉的研究课题,在很多领域都有实际的应用,如产品的声誉分析,舆情跟踪,博客兴趣分析等。论