基于主题的Web文档聚类研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:yangbao_2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。
其他文献
目的测定头孢地嗪钠(CDZ)的热性质,研究CDZ的热分解机理、热分解动力学和CDZ的热稳定性。方法采用热重法(TG)和差示扫描量热法(DSC)测定CDZ在氮气氛和空气氛中的热分解过程,测定CDZ
目的:探讨联检肿瘤标志物CA19-9、CA50、CA242和TSGF在胰腺癌诊断中的应用价值。方法:选取2008年7月~2011年10月来我院体检、就诊以及住院的患者共160人,进行了CA19-9、CA50、
综合经验事实 ,提出对于同一个受试者和同一种呈现事件 ,近似描述情绪体验强度与客观呈现事件数量之间的一个数学公式。
该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可
目的研究穴位贴敷治疗脑出血后肌痉挛临床疗效。方法通过穴位贴敷作用于脑出血后肢体痉挛的患肢阳经穴位,与电针治疗、药物治疗相对照,在治疗前后评价三组患者的患侧肢体痉挛
信息素养已经成为信息时代每个人必须具备的基本素养,本文通过对信息素养及相关概念的梳理,从主客关系的角度阐述了信息素养的基本内涵,并对信息素养与计算机素养、技术素养
主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结
目的:研究水针治疗中风偏瘫后肢体痉挛的临床疗效。方法:将85例中风偏瘫后肢体痉挛患者随机分为2组。对照组40例,给与常规针刺疗法治疗;治疗组45例,取穴方法同对照组,予2%盐