模糊聚类算法的改进及其在文本聚类中的应用

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:qwm777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是数据挖掘算法中的重要方法。聚类应用非常广泛,无论是在商务上,还是在市场分析、生物学、Web文档分类等领域中都得到了充分的应用。目前聚类算法的研究焦点主要集中在:符号属性问题、算法效率问题、初值选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题。 模糊c-均值聚类(FCM)算法是最早的目标函数聚类算法,也是目标函数聚类算法中研究比较充分的算法。虽然模糊c-均值已有一些成功应用的例子,但仍旧存在薄弱环节和不足之处。 本文在分析了FCM算法和基于遗传聚类算法的不足基础上,研究了如何降低算法对初值和输入参数的依赖,自主进行全局搜索,找到全局最优解。提出了一种基于免疫单亲遗传和模糊c-均值的混合聚类算法。将免疫单亲遗传算法与FCM算法相结合,用此免疫单亲遗传聚类算法找到保持全局特性的聚类中心数目及初值作为FCM算法的初始值,进而继续进行局部搜索从而确保求得全局最优解。实验表明,该算法克服了FCM的局部最优问题以及普通遗传算法聚类时的搜索速度和聚类精度的矛盾。 利用此混合聚类算法对文本进行聚类,可以将文本归到多个类,充分体现出汉语文本的多样性和大量性的特点。
其他文献
随着现代计算机技术的发展,人与计算机之间交流的界面早已不局限于鼠标和键盘。越来越多的新的交流手段被引入到计算机中来,而语音数字处理和语音识别技术的进展使语音逐渐成
该文研究了主观信任的主要特征,并以模糊集合论为理论基础提出了主观信任的度量机制,通用的信任类型定义机制,信任的综合评判技术,信任关系的形式化表示和信任的形式化推理机
二十一世纪是信息的时代,计算机及网络是人们工作、生活的必备工具之一,各种各样的信息系统更是深入到社会的各个领域。特别是全球化作业处于蓬勃发展的前沿,对物流管理的需求日
随着人类科学技术的进步,近年来Internet得到了飞速发展。但是计算机安全问题也在呈明显上升趋势。在没有联网的单机时代,主机的安全问题主要表现在病毒上,但是一旦主机系统连接
近几年随着Internet的迅速发展,P2P网络已经得到广泛的应用,其中最重要的应用是文件共享。作为最流行的文件共享方式,BitTorrent协议使网民能更好地共享文件,与此同时也给盗
随着高等院校日新月异的发展,高校原有的信息系统已经远远不能满足人们的需要,高校迫切需要一个开放的、分布的信息系统,而分布式数据库技术与网络技术的飞速发展,又为在校园网的
机电专业的计算机教育,属于计算机基础教育的范畴,其目的在于让学生了解计算机在机电专业中的重要作用,掌握计算机的基本知识和基本操作,以使其在今后的工作岗位上灵活使用计算机
目前,Linux主机在异构型Intranet中的应用十分广泛,常与Windows主机并存。Linux主机在异构型Intranet中既可以作为各种服务器使用,如WWW服务器、FTP服务器、Samba服务器等,亦可作
BACnet是开放的楼宇设备自动控制网络数据通信协议。在智能建筑领域,BACnet以其开放、简单、实用及易于与其他网络集成的特点成为建筑自动控制网络的国际标准。BACnet的目标
在很多图像应用系统中,由于输入或采集的图像不能满足系统要求,往往需要对原始图像进行一系列的去噪声、去干扰、灰度校正、图像增强等图像预处理,所以图像预处理技术的研究一直