面向文本的协同聚类集成研究

被引量 : 0次 | 上传用户:muhututu1216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术是数据挖掘中一个非常重要的技术方法,被广泛应用于多个研究领域。随着网络的逐渐普及和发展,文本数据成爆炸似增长,聚类被大量应用于文本数据集聚类,使在同一个文本簇中的文本相似度大,而在不同文本簇中的文本相似度小。文本聚类是一个无监督的聚类过程。协同聚类是在文本聚类上作了一些改进,在聚类过程中将文本属性和特征词属性同时进行聚类,提高了传统文本聚类的性能。由于单一聚类或协同聚类的性能不太稳定,难以表示出数据集的分布结构。为了提高算法的稳定性,学者们又提出了聚类集成的概念。得到多个具有差异性的基聚类结果,使用一个共识函数对基聚类结果进行集成,最后得到稳定的聚类结果。协同文本聚类是将文本属性和特征词属性同时或交替进行聚类,充分考虑到了文本间、特征词间、文本与特征词间的相似性。因为文本数据结构的特殊性(非结构或半结构),在文本预处理时必须对文本进行表示。传统的向量空间模型是基于特征词独立性这一假设前提的,但实际上特征词间存在着某种相似性。本文采用双词的向量空间模型对文本进行表示,保留在文本中出现频率高的双词。双词向量空间模型不仅保留了传统向量空间模型的全部信息,而且还多增加了一些能表示文本主题的信息。实验证明采用双词模型的协同文本聚类效果明显好于传统模型的协同文本聚类。由于双词向量空间模型的高维和稀疏性,在协同聚类之前必须对特征词维数进行约减。方差波动描述了一个特征向量对文本聚类的贡献程度,忽略了特征向量间的相似性。相关系数既表示了一个特征向量对文本聚类的贡献程度,又描述了两两特征向量间的相似性;同时矩阵分块的方法也大大减少了算法的运行时间。在协同聚类的调整算法中,文本聚类结果与特征词聚类结果一一对应,有利于文本主题的发现。对文本进行单一的协同聚类得到的聚类性能不太稳定,本文在协同文本聚类后又进行了集成。基于离差平方和的数据片段集成方法是在基聚类结果上得到多个文本数据片段(数据片段个数远远小于原数据点数),在数据片段上采用一个共识函数进行集成,得到最后的聚类结果。实验结果表明,协同文本聚类集成方法提高了协同文本聚类的稳定性和效率;基于数据片段的集成方法比传统的集成方法较时间复杂度有很大的降低,而且不是以牺牲性能为代价,甚至性能还略有提高;基于离差平方和的数据片段集成方法聚类效果明显好于基于数据片段的层次集成方法。
其他文献
目的探讨小青龙汤治疗慢性支气管炎急性发作的疗效。方法对收治的75例慢性支气管炎急性发作患者,随机分为治疗组(40例)和对照组(35例),对照组予以头孢噻肟钠、复方甘草合剂,
公允价值应用对会计信息质量的影响多年来一直是人们讨论的热点。本文从公允价值的内涵以及会计信息的相关性和可靠性入手,主要分析了公允价值的应用对相关性和可靠性的影响
试验选取160头体重7.024±0.505kg的健康断奶仔猪,随机分4个处理,每个处理4个重复,每个重复10头猪。分别饲喂粉料A组、粉料B组、颗粒料C组和粉料D组。结果表明:断奶后10d试验
根据零件的结构特点,选择合适的工艺参数,把消失模铸造工艺应用到大型复杂箱体件———后传动箱的生产上。生产实践表明,消失模铸造工艺简化了生产过程,节省了原工艺需要的大
药物基因组学的研究进展在指导临床个体化用药、阐明个体差异方面具有重要作用。常用抗肿瘤药物在肿瘤治疗中使用频率最高,是一线方案的首选药物。通过对常用抗肿瘤药物基因
文学批评是对文学直观阅读经验的审美反思 ,是反思后的表达 ,是表达中的反思 ;主体性、象征性、语境性、对话性是批评言语的四大特性。文学鉴赏虽是属于前文学批评的直观阅读
物投影仪,又称视频展示台,是将实物、文稿、图片和过程等信息转换为图像信号输出在投影仪或大屏显示器上展示出来的一种演示设备,被广泛用于教学、会议及产品展示等场合。目
目的探讨孕前健康信念模式教育对妇女口腔保健知信行的影响。方法选择220例孕前优生健康体检妇女随机分为对照组(110例)和研究组(110例)。对照组采用常规口头口腔卫生指导;研
奖罚激励是一种在大学生思想政治教育中常用的激励方式,主要是以奖罚为手段来培养大学生积极向上的精神状态。本文论述奖罚激励发生的机理、思政教育工作中运用奖罚激励的必