聚类分析中最佳聚类数确定方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:bigdoglsm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘、机器学习领域中的重要分析方法,近几十年来得到了许多专家学者的深入研究。如今,随着互联网的发展,各种数据源大量涌现,聚类分析方法也因此得到了较快的发展,并取得了许多成果。然而,聚类分析目前仍存在许多问题,其中之一就是最佳聚类数的确定问题。针对该问题,本文深入研究了聚类分析及聚类有效性评价,提出了一种新的聚类有效性指标,对现有的K-means算法进行了改进,并对中文新闻文本聚类这一实际问题进行了算法应用。本文的主要研究成果如下:1、提出一种基于泛化能力的聚类有效性指标——GA指标,该指标通过当前聚类结果对样本集中其他数据的泛化能力来衡量聚类有效性。通过逻辑推理和数据实验,证明该指标能较好地实现对聚类结果好坏的评价。2、结合本文提出的GA聚类有效性指标,提出一种基于GA指标的K-means最佳聚类数确定方法KGA算法,解决了K-means算法需要事先确定聚类数这一缺点。通过人工数据集以及真实数据集检验,该方法能够有效确定K-means聚类的最佳聚类数。3、基于GA指标以及KGA算法,设计出一个中文新闻文本聚类框架。该框架通过GA指标以及KGA算法对K-means算法进行改进,并将改进后的K-means算法应用到中文新闻文本聚类的实际问题中。通过对1800篇新闻进行实验,本文提出的中文新闻文本聚类框架的实用性以及有效性都得到了验证。
其他文献
本文研究一类块对称三对角不定系统的预处理技术.把鞍点问题的一种矩阵分解方法推广至块对称三对角不定系统.文中研究了这类矩阵的广义Cholesky分解,利用这种矩阵分解法构造
探讨职业卫生与安全生产一体化模式实施在工业生产过程中的作用。通过分析我国职业病的危害及其特点,发现我国职业卫生工作中存在的问题,提出实施职业安全卫生一体化监管的建
海底沉积物-水界面溶解甲烷渗漏不仅是海底天然气水合物的存在标志和分解释放途径,也是冷泉生物群落的物质和能量来源,因其对海洋环境乃至全球变化的可能重要影响而日益引起
本文对现代印制电路电镀和蚀刻工艺中所发展的前沿技术,通过总结从七个方面进行介绍和论述:(1)穆斯堡尔谱学对沉积层的应用;(2)光亮剂浓度的监测;(3)化学镀铜液的净化;(4)保
目的食管癌是全球常见的的恶性肿瘤,新疆为发病率较高的地区之一。本研究旨在完善新疆汉族食管鳞癌(esophageal squamous cell carcinoma,ESCC)基因表达谱,进一步了解ESCC的
痴呆是一种获得性、持续性智能损害.即在无意识障碍情况下,表现为记忆及思维功能明显减低.其中由脑血管病反复发作所引起的痴呆称为血管性痴呆,多呈进行性发展且逆转困难.我
我国营改增税务改革是由2016年5月1日开始在全国范围内实行的。因此也替代了原有的营业税。在我国的传统企业中煤炭行业是最基础的一种企业,也是我国国民经济的重要支柱,更是
为了克服纯银镀层硬度不够、不耐磨的缺点,本文研究了用氢氧化高铈胶体微粒作为分散相,在常规的氰化镀银槽液中,电镀银-氢氧化高铈复合镀层的方法。列出了槽液配方及操作条件
2014年6月,国务院印发了《关于加快发展现代职业教育的决定》,教育部等6部委颁布了《现代职业教育体系建设规划2014—2020年》。有人说,这些文件的颁布标志着我国职业教育发
目的观察长链非编码RNA MIR663AHG(lncRNA MIR663AHG)在新疆哈萨克族食管鳞癌组织中的表达情况及其相关的mRNA。方法 17例食管鳞癌患者,其中哈萨克族7例(观察组)、汉族10例(对照组