基于k-means的自适应聚类算法研究

被引量 : 20次 | 上传用户:Gloria_SHU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,网络信息爆炸对有用信息的高效获取和管理提出了挑战。传统的信息检索,需要用户有明确的需求。但是这在很多情况下很难做到,因此如何在没有明确查询需求的情况下,从网络文本中获取有用信息便成为一项非常有意义的研究课题。文本挖掘是一种可以有效的从非结构化文本信息中提取出有用信息的过程。聚类作为文本挖掘的重要技术,它可以发现有用的数据分布和隐含的数据模式,用它可以不依赖背景知识直接发现有用的结构和簇。基于这样的背景和前提,本文首先回顾了聚类算法的国内外研究现状,重点介绍了聚类过程中的相关技术、以数学形式表示和讨论了聚类过程中相似度度量、测度距离等基本概念,为后续章节的研究提供了理论和实验基础。同时分析了五种常用的聚类方法,并对各种算法的性能做了分析与比较。在分析现有主要聚类算法优缺点的基础上,提出了一种自适应聚类算法,该算法通过寻找自定义判别函数的最优解,能够自动确定聚类结果的类别数目,避免了在聚类数目选取上存在的主观性和盲目性,在一定程度上弥补了原有算法的不足,并通过实验验证了该算法的有效性。在此基础上,本文阐述了一种基于自适应聚类算法的新主题发现系统。该系统能够自动发现文本数据流中的潜在主题,并按照每个类别文本的主题内容给出类别表征词。实验测试结果表明,采用自适应聚类算法的新主题发现系统能够有效的发现潜在文本主题,再一次证实了算法的有效性。最后,对论文的工作进行了回顾和总结,并就有待进一步研究和探索的问题进行了讨论和展望。
其他文献
论文设计并实现了一种可以用于存档、分析、和挖掘大型分布式数据集的高性能云。文中定义云为一种可以提供互联网资源与(或)服务的基础设施。存储云提供存储服务,计算云则提供
一项为期4年的儿童骨质疏松预防(POP)研究数据显示,儿童青春期前参加一定的运动锻炼可增强骨质,预防老年期的骨质疏松。POP研究小组对每天参加体育活动的学生与每周参加1次运
电子商务日新月异,中国邮政如何凭借其在实物流、信息流和资金流“三流合一”的优势开展电子商务?本文旨在通过对中国邮政的SWOT分析和国内外邮政企业电子商务发展情况的回顾
近年来,DevOps 日渐火热,作为支撑技术的微服务架构由于其敏捷性、灵活性和可扩展性已成为软件行业关注的热点.然而,微服务粒度的界定是微服务领域的一项难题,至今仍缺乏行之
世界能源危机的加剧使得光伏发电得到了长足的发展,并成为了当今新能源利用的主流之一,而与建筑集成化将是未来光伏发电系统的重要发展趋势。在住宅和建筑集成应用中,光伏发
印度-亚洲板块碰撞导致喜马拉雅山脉的崛起、青藏高原的生长、两倍于正常地壳厚度的巨厚陆壳体,以及大量青藏高原腹地的物质沿着大型走滑断裂朝东、东南、西的方向逃逸。印度
在21世纪信息时代背景下,社会信息化水平不断提升,水利行业加快了自身信息化建设的脚步。现阶段,重中之重的工作便是依托先进的计算机网络技术,提高水利工程管理水平,将计算
微水导激光加工技术是一种新的复合加工技术,与普通激光加工相比较,具有加工距离长、热影响区小、加工效率高、工件冷却效果好和切缝干净利落等优势,近年来越来越受到国内外
第一部分高频超声评价系统性红斑狼疮患者血管结构和功能改变及其相关性研究分题一高频超声评价系统性红斑狼疮患者肱动脉内皮功能目的应用高频超声测量并计算系统性红斑狼疮
随着全球老龄化危机的到来,社会保障以及社会保障基金的研究成为现代金融学研究的热点和难点之一。其核心问题是如何达到有效保值增值的目标来应对老龄化危机。全国社会保障