基于样本加权的文本聚类算法研究

来源 :情报学报 | 被引量 : 0次 | 上传用户：ldpjk77

【摘要】

：

样本加权聚类算法是一种最近才引起人们注意的算法，还存在一些需要解决的问题，例如，聚类对象之间的结构信息对样本加权聚类是否有帮助，如何将结构信息自动转换为样本或对象的权重

【作者】

：

章成志师庆辉薛德军

【机构】

：

南京大学信息管理系,中国学术期刊光盘版电子杂志社

【出处】

：

情报学报

【发表日期】

：

2008年1期

【关键词】

：

文本聚类样本加权聚类 PAGERANK 被引频次 document clustering sample weighted clustering PageR

【基金项目】

：

本研究受“十一五”国家科技支撑计划重点项目（2006BAH03804）子课题“科技热点动态监测技术研究与应用”、2006年江苏省研究生培养创新工程项目资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

样本加权聚类算法是一种最近才引起人们注意的算法，还存在一些需要解决的问题，例如，聚类对象之间的结构信息对样本加权聚类是否有帮助，如何将结构信息自动转换为样本或对象的权重？针对该问题，本文以学术论文为聚类对象，以K-Means算法为聚类算法基础，利用论文之间的引用关系计算每篇论文的PageRank值，并将其作为权重，提出一种基于样本加权的新的文本聚类算法。实验结果表明，基于论文PageRank值加权的聚类算法能改善文本聚类效果。该算法可推广到网页的聚类中，利用网页的PageRank进行加权聚类，来改善网页的

其他文献

期刊h指数模型修正与实例验证

简要分析了h指数模型的的发展,重点分析了Glanzel-Schubert期刊h指数模型优点与可能存在的问题,并通过实例统计分析证实了常数c的理论值为1,且篇均被量的幂被高估了,在此基础

期刊

H指数模型修正期刊h-index model adjustment journal

基于客户价值理论的国家科技文献中心用户分析

国家科技文献中心（NSTL）已成为国家科技文献信息资源的保障基地、国家科技文献信息服务的集成枢纽和国家科技文献信息服务发展的支持中心。随着网络化资源和服务集成的日益普及

期刊

客户价值用户分析价值矩阵customer value user analysis value matrix

复合砂浆钢筋网加固混凝土构件粘结机理探讨

探讨了钢丝网复合砂浆加固混凝土构件中界面粘结的破坏机理,提出通过植筋来改善其粘结强度.在此理论基础上,进行了对用钢丝网复合砂浆加固过的混凝土试块的界面粘结破坏实验,

期刊

粘结植筋加固技术cementationpost-embedding technologyexecution of works

影响超磁致伸缩执行器中逆效应性能的主要因素

超磁致伸缩材料（GMM）是一种具有双向可逆换能效应（磁-机、机-磁）的新型功能材料，利用其逆效应在超磁致伸缩执行器（GMA）驱动过程中感知出传感信号，可实现自感知执行器。探讨超磁致伸缩

期刊

超磁致伸缩逆效应自感知Magnetostrictive Converse effect Self-sensing

基于概念格的Folksonomy知识组织研究——Tag Spam过滤指标权值配置

随着Folksonomy在实际应用中的日渐普及和声望的不断提高，其在应用中存在的问题也逐渐显露出来。恶意Tag和对用户检索行为无效或低效的TagSpam严重地影响了Folksonomy的实际应

期刊

概念格FOLKSONOMY垃圾标签权值配置concept lattice folksonomy tag spam weight configura

基于数据挖掘的企业竞争情报智能采集策略研究（Ⅱ）——采集信息源的分析、选择与集成策略

本文首先从信息源范围、信息源结构类型、信息存在状态、信息交流渠道等方面分析了信息源的特点，论述了通过网络信息源结构、内容、访问流量的挖掘实现对采集信息源进行评估与

期刊

数据挖掘企业竞争情报智能采集信息集成data mining enterprise competitive intelligence intellig

自动情感文本分类研究综述

情感分类及其应用是目前研究的一个热点,是自然语言处理,机器学习和心理学等多学科交叉的研究课题,在很多领域都有实际的应用,如产品的声誉分析,舆情跟踪,博客兴趣分析等。论

期刊

情感语义词典主观识别情感分类舆情跟踪声誉分析研究综述sentiment semantic lexicon subjectivity identif

基于样本加权的文本聚类算法研究

其他学术论文