Clustering Text Data Streams

来源 :计算机科学技术学报(英文版) | 被引量 : 0次 | 上传用户:wly9007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Clustering text data streams is an important issue in data mining community and has a number of applications such as news group filtering, text crawling, document organization and topic detection and tracing etc. However, most methods are similarity-based approaches and only use the TF*IDF scheme to represent the semantics of text data and often lead to poor clustering quality. Recently, researchers argue that semantic smoothing model is more efficient than the existing TF.IDF scheme for improving text clustering quality. However, the existing semantic smoothing model is not suitable for dynamic text data context. In this paper, we extend the semantic smoothing model into text data streams context firstly. Based on the extended model, we then present two online clustering algorithms OCTS and OCTSM for the clustering of massive text data streams. In both algorithms, we also present a new cluster statistics structure named cluster profile which can capture the semantics of text data streams dynamically and at the same time speed up the clustering process. Some efficient implementations for our algorithms are also given. Finally, we present a series of experimental results illustrating the effectiveness of our technique.
其他文献
高校学报经历了两种主要的传播途径:学报-图书馆-读者;学报-大型综合性数据库-读者.应探索高校学报更为有效的传播途径:专业性学报-学科或专业性数据库-读者.
参加学术会议是学术期刊编辑获取前沿信息的有效途径.为保障高效完成参会任务,提出从会前准备、与会策略和会后跟踪三个方面应全面准备,策略听会,分层次宣传约稿等期刊编辑参
对稿件的量化分析表明,稿件中存在着不少错误信息,编辑部应与同行审稿专家、作者密切配合,把好审稿三关,切实保证文章质童.根据国内外的刊后审读和系统评价(systematic revie
对2009年SCI-Expanded(SCIE)收录的7347种期刊的主要文献计量学指标(包括期刊的出版语言、所属国家和地区、出版频率、总被引频次、影响因子、自引率、即年指标和特征因子等)
对2010年出版的200种科技期刊的目次表编排情况进行了调查.调查发现,有些科技期刊的目次表编排不符合GB/T 13417-2009的规定.对科技期刊目次表编排存在的问题进行分析,并提出
在新闻出版体制改革的大背景下,对高校学报进行重新定位并研究其运行模式,成为了迫切需要解决的问题.高校学报是高校的一个有机组成部分,肩负着促进科研、传承文化的重任,不
Y两优302在广西桂中北稻区进行大田示范种植,表现综合农艺性状好,高产、稳产,抗逆性强、米质较优,商品价值高,深受广大种植户的欢迎,适宜在桂中北稻区作早、晚造或一季中稻种
对美国Wiley-Blackwell出版公司近年来在线出版中国学术期刊的情况进行了简要介绍,时目前Wiley-Blackwell在线的10种中国期刊及其6000多篇文献的学科分布、文献年度分布及合
服务意识是学术期刊编辑部应具备的职业素质要求,编辑部面向读者、作者、审稿人和编委会服务,构成了编辑部的工作核心.以编辑部为例,系统阐述了编辑工作流程中的服务要求及规
广告经营是科技期刊产业化的-条主要途径.在回顾了广告经营存在的问题和所采取的措施的基础上,对今后科技期刊的广告经营在数字化、网络化现代发展条件下向产业化方向迈进进