基于归一化压缩距离的文本谱聚类算法研究

来源 :贵州大学 | 被引量 : 1次 | 上传用户:shaw1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的快速增长,如何对海量文本信息进行有效聚类一直是文本挖掘领域的研究热点。传统的文本聚类算法通常采用向量空间模型(VSM)进行文本聚类,但是文本向量空间存在高维稀疏的问题,而且随着文本数据规模的增大,向量空间维度随之变大,需要对文本特征进行选择,并导致文本相似度计算复杂,聚类准确度下降。基于压缩距离的通用相似度度量方法的提出,则为这一问题的研究提供了新的思路。基于压缩距离的聚类算法虽然具有普适性、领域无关性、参数无关性等优点,但是应用到文本内容语义信息聚类时往往准确率较低。针对这一问题,论文首先提出了一种文本特征扩展方法,该方法通过引用“百度百科”中特定词条的名片信息,对预处理过的文本中关键词进行特征扩展,并针对存在多条解释语句的关键词进行特征扩展降噪处理,提高特征词的主题贡献度。其次,提出了一种基于特征扩展的文本聚类方法(DEF-KC),该方法与经典文本聚类方法相比,省去了文本表示、特征提取、特征空间降维等复杂计算过程,增加了文本特征扩展步骤,有效的提升了特征词的表述能力,并采用改进的归一化压缩距离进行文本相似度计算,然后构造相似度矩阵,最后采用谱聚类算法进行聚类处理。最后,论文实现了DEF-KC算法,并设计对比试验,验证了该算法的有效性和稳定性。实验结果表明,论文提出的DEF-KC算法与传统基于压缩距离的文本聚类算法相比,聚类准确率和召回率均得到了较大提升。
其他文献
移动传感器网络是由小微型、低功耗传感器节点组成的,能够感知和处理被监测范围的数据信息,通过节点的无线通信功能上传采集到的数据信息。其网络中的传感节点都具有移动性,能够
基于CT图像的CAD(计算机辅助诊断)技术是目前世界上一种先进的医学影像诊断检查的临床应用技术,该技术通过对计算机图像处理技术来高效识别CT图像中的可疑病灶。CAD技术能够提高
随着人民生活水平的提高,“健康”和“疾病”成为人民关注的焦点,运用计算机技术进行疾病分析预测也成为健康医疗领域的研究热点之一。呼吸系统疾病是一类常见疾病,而且和气
随着多媒体技术、计算机技术的迅速发展,多媒体数据已经成为重要的信息资源,人们每天都可以通过互联网接触到大量的多媒体信息,如视频、图像、各类新闻等。网络新闻作为一种
海量科学数据的到来使领域科学家面临前所未有的科学数据管理困境。一方面,传统以表为数据模型的关系型数据库管理系统已经不能满足科学领域大规模科学数据的管理需求;另一方
随着通信技术的飞速发展,当今网络正在向着可以提供包括海量数据传输、音视频等各种高带宽服务的下一代网络发展。这种发展趋势对整体网络设施的网络包的处理能力与处理速度
传统的机器学习、数据挖掘算法是基于向量型数据提出的。由于结构化数据在现实应用中广泛存在,图形数据的表示和分析正得到越来越广泛的关注。由于图数据结构的复杂性,不能仅
随着应用层组播技术的不断进步和网络服务质量的不断提高,差错恢复显得越来越重要,因此,提出一种高效的应用层组播差错恢复模型显得越来越迫切。   本文首先对传统的非应用层
随着科技的发展,多媒体数据库里的图像信息越来越多,并且增长速度越来越快,它在提供大量资料的同时给我们带来了烦恼:如何对如此大的数据库进行整理与分类便于用户进行检索。
21世纪是计算机网络高速发展的世纪,但与之同时,黑客入侵日益猖獗,计算机病毒越来越泛滥,这严重影响了计算机网络的正常运行。更为严重的是,网络战争也已经出现在了我们的面