半定嵌入文本聚类算法的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:big_moth123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是信息检索领域中数据的基本表示形式。如何从大量文本数据中分析和提取出有用信息,业已成为数据挖掘一个日益流行而且重要的研究课题。文本数据用向量空间模型表示时,由此构造出的文本空间通常具有高维性。在高维空间中,随着维数的增加,数据变得越来越稀疏,造成点与点之间的距离度量失去意义,从而降低了数据簇在高维空间的存在机率,使聚类算法效率下降。因此,针对高维文本数据提出有效的聚类算法具有实际意义。   本文着重研究了文本聚类的相关内容,所开展的研究工作主要有:   首先,本文深入研究文本聚类的相关理论和关键技术,包括分词、去除停用词操作、文本表示、权重及相似度计算等,为后文的聚类实践打下坚实的基础。   其次,本文对文本聚类存在高维稀疏的问题进行分析,重点分析了高维性对文本聚类效果的影响,并对目前的降维技术进行总结,在简单介绍流形学习算法思路的同时对其优点进行简要概括。   再次,针对文本聚类存在的问题,本文提出半定嵌入聚类算法(Semidefinite Embedding Clustering,SDE-C),算法思想是:首先利用半定嵌入算法对原始文本数据进行非线性维数约简,根据其数据分布找出高维数据中有意义的低维核结构,然后在低维核空间中进行核聚类分析,最终达到降低文本特征维数和提高聚类质量的目的。在公共数据集上的测试实验和实际中文文本数据集的验证实验结果均表明,该算法是可行的,具有较好的文本聚类质量。   最后,针对新提出的半定嵌入文本聚类算法存在计算复杂度较高、计算速度较慢这一缺陷,本文提出一种基于改进ISDE的聚类算法(Improved-lSDEC)。首先利用最大最小规则对原ISDE(landmark SDE)的标志点选取方式进行改进,以保证算法的稳定性;接着,在保持局部等距和最大化点对间距离和的约束下,通过半定规划求出标志核矩阵,利用标志核矩阵得到高维数据空间的低维嵌入核矩阵,以实现数据非线性降维处理及删减文本特征中的冗余信息,最后在低维核结构中利用核聚类算法对文本进行聚类分析。实验结果表明该算法具有较好的稳定性,在具有和半定嵌入聚类算法相当的聚类质量的同时,聚类速度明显提高。
其他文献
当今,晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在2005年左右开始失效了,人类再也不能期待单个CPU的速度每隔18个月就翻一倍,单机的数据清理能力再也满足不了当今人们
虽然水下图像采集是获取水下信息的重要途径之一,但在水下环境中,图像质量严重退化,包括颜色失真、细节模糊及对比度下降等。水下图像退化主要是由光在水体中的衰减和散射造
模式识别技术目前已发展成为一门强大并且有旺盛生命力的学科,该技术目前已被广泛应用于工业、军事、农业、生物医学等各领域,自动完成对不同对象的智能识别,且识别误差率较
随着无线网络的不断发展以及无线流媒体应用的风靡,各种无线流媒体系统应运而生,在该背景下,实验室自行开发了适用于无线环境下的流媒体系统CWMS(Clear Wireless Multimedia
制造网格平台集成了众多制造企业的资源,并实现资源的全面共享。在制造网格环境中,节点间的交互行为主要分为请求资源和提供资源共享两种。如果能通过节点问交互行为的成败来
无线传感器网络的资源受限,因此如何在无线传感器网络中实现低能耗的可靠传输显得尤为重要。协作通信是一种虚拟的MIMO技术,结合了分集技术和中继通信的思想,可以提高通信的
网络带宽的增加使得互联网上的多媒体应用成为可能,并得到了广大用户的喜爱。但是由于多媒体文件,尤其是视频文件太大,多媒体数据在传输时,文件服务器带宽成为整个系统的瓶颈
信号在水声信道中的传递受多径干扰的影响十分重大。对水声信道影响较大的几个因素是:水声信道参数、传播损失和多普勒频移。尤其在水深较浅的区域,直达声和反射声混合形成复
传统的机器学习的研究中往往倾向于将有标签的数据和无标签的数据分开研究,但是在现实生活中,这两种情况往往是并存的。半监督学习便由此应运而生,在传统应用中往往将半监督
研究表明,我们肉眼所看到的自然界众多图像中,其所传达的情感语义都十分丰富,或清爽,或伤悲,或温暖,或恐惧。基于文本的图像检索系统出现最早,发展也最为成熟,它主要根据某些