无尺度图k-中心点聚类算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:a7395937
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类在文本挖掘和知识发现中起着很重要的作用。这种理论和方法可以对文本进行有效的管理和组织,可以对信息检索的结果进行改善,提供导航/浏览机制,发现相似的文本等。因此,文本聚类已经成为重要的研究方向和研究课题。目前多数文本聚类算法都是以向量空间模型(VSM)为基础。这种文本表示方法非常简单,但却引发了高维稀疏的问题。它还无法解决文本数据所特有的两个语义问题:近义词和多义词。而且,传统的聚类算法对于任意形状的聚类显得“束手无策”,尤其是样本数据不为“凸”时,算法陷入“局部”最优。最后,对于存在“孤立点”数据,影响传统数据挖掘的效果。所有这些问题都极大干扰了文本聚类算法的效率和准确性,使文本聚类的性能下降。尽管人们提出了通过特征提取的降维方法,表示文本特征时更多加入词频和词性等语义信息来解决上述问题,但是,这些方法都有自身的缺点,仅仅能非常有限的提高文本聚类的性能。本文为了解决上述的问题,(1)提出了一种无尺度图K-中心点聚类算法,不仅解决传统聚类算法高维稀疏问题,算法的伸缩性较差的问题,而且,从根本解决了传统聚类算法对于样本不为“凸”时,算法陷入“局部”最优的问题。(2)引进知网进行文本间语义相似度计算,利用概念集合表示文本模型,对概念集合进行义原扩展,使用集合相似度的比较方法,比较文本的义原集合,从某种程度上解决了文本聚类中的语义问题:近义词和多义词。(3)最后,通过实验验证该算法比传统聚类算法有更好的效果。
其他文献
实现无条件安全的关键在于安全密钥协商协议的设计。密钥协商协议包括初始化,信息协调,保密增强三个阶段.现在通常的做法是通信双方在初始化阶段通过使用有扰信道或量子信道
复杂网络上的流行病传播吸引了来自数学、物理和生物等领域的学者广泛关注。淬火平均场理论是分析流行病传播的重要方法之一。在本文中,我们研究淬火平均场理论的有效性以及在
随着汽车电子和智能控制技术的发展,智能车已经成为自动控制领域内的一个研究热点,路径跟踪是智能车控制领域的基础。本文以DM642为核心控制器对智能车的道路识别算法和转向控
在给系统设置脉冲时,我们并不能确保正好在固定时刻上施加脉冲,即我们原本打算在t时刻设置脉冲,却只能在一个很小的时间窗口(t-a,t+a)上讨论问题,其中a是一个很小的正数。在系统
隐马尔可夫模型是一个基于一些参数族{f(·|ε),ε∈Ψ}混合模型y1|{s1=k}~f(yt|εk), 其中混合随机过程{st}是有K个状态的Markov链,在Chopin(2007)关于连续有序的隐马尔可夫模
引言rn作为一名教师,我们的专业素养决定着我们的教学之路的宽广度,精彩度.专业素养包括备课、上课、观课、议课.备课上课非常重要,但观课议课对我们专业素养的提升同样有着
内点法是起源于线性规划的一类重要的优化方法,该算法通过一种变换使迭代点从可行域的内部向最优解逼近,内点法对约束优化问题的求解有比较显著的效果,现在已经被广泛应用于非线
编韵语歌诀助学事半功倍,对于形近字也一样.
由于遥感器成像系统的分辨率极限,以及大气干扰等方面的影响,往往难以直接获得分辨率高、模糊变形少的高质量遥感图像。超分辨率图像重建技术可以克服图像系统内在分辨率的限制,因而这一技术在视频、遥感、医学和军事等领域得到广泛应用。本文主要研究基于小波的遥感图像超分辨率重建方法,对已有的高分辨率图像进行小波分解后得到描述各个方向上细节信息的小波系数,然后利用这些小波系数对低分辨率图像进行重建,取得了明显的效
Sobolev方程在流体力学、热力学等许多数学物理方面都有着广泛的应用,例如:流体穿过裂缝岩石的渗透理论,土壤中的湿气迁移问题,不同介质间的热传导问题等等.本文共分两章: 第一