基于TFIDF-GA特征选择的文本模糊聚类方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:zooton2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是在没有文本类别标记的情况下对文本进行分类,使同类别的文本间相似度尽可能大,不同类别的文本间相似度尽可能小。而今,随着信息的爆炸式增长以及学科类别间的交叉渗透,文本日益大量化和多样化,文本的类别隶属度界限越来越不明确。于是,文本模糊聚类渐渐成为文本聚类的另一个研究方向。本文从特征选择和模糊C均值算法两个方面对文本模糊聚类进行研究:1、无监督特征选择方法。特征选择方法主要有过滤式、封装式和嵌入式三种,本文结合过滤式和封装式方法,即词频-反文档频率(Term Frequency-InverseDocument Frequency,TFIDF)算法和遗传算法(Genetic Algorithm,GA)相结合,提出基于TFIDF-GA的无监督特征选择方法。该方法通过改进后的TFIDF公式计算特征权重,然后根据选择规则得到初始特征子集,将该特征子集作为遗传算法的初始种群进行迭代搜索。初始特征子集能够为遗传算法提供较好的搜索起点,加快搜索速度,同时遗传算法的自适应全局搜索能力能够启发式搜索到具有很强分类能力却没有包含在初始特征子集中的特征。2、模糊C均值聚类算法。模糊C均值聚类算法(Fuzzy C-Means,FCM)在基于目标的模糊聚类算法中应用最为广泛。本文对FCM算法进行改进,使用密度参数初始化聚类中心,能在一定程度上降低由于初始聚类中心选取的随机性对算法产生的误差;在FCM算法的约束条件中引入信息熵,更好地描述数据的实际分布情况。本文从特征选择和FCM算法出发,提出基于TFIDF-GA和改进的FCM算法的模糊聚类算法,实验结果表明该算法可以得到较高质量的聚类结果。
其他文献
J2EE是一种利用JAVA平台来简化企业信息系统的开发、部署和管理等相关复杂问题的体系结构,它为开发人员提供了一个基于组件的方法来设计、开发、装配和部署企业级应用程序的方
随着软件应用领域的不断扩展和软件规模的不断扩大,如果软件质量得不到保证,就可能会造成巨大的人身和财产损失。软件测试是保证软件可靠性和安全性的重要技术手段,而测试数
随着计算机和网络的普及和飞速发展,网络用户面临着日益严重的安全问题,网络入侵已经成为计算机安全和网络安全的最大威胁。入侵检测作为一个迅速发展的新领域,已经成为网络安全
近几年,随着入侵检测技术研究的深入,人们发现由于计算机的运行机理和生物体有着天然的相似之处,生物免疫系统成功保护机体免受各种侵害的机理为研究计算机安全,特别是入侵检测技
近年来,基于点的图形系统(PBG,Point-BasedGmphics)开始引起人们广泛的关注,成为图形学研究领域的一个热点。在吸收和借鉴传统的网格模型上的纹理映射和纹理合成技术的基础上,本
入侵检测是一项历久弥新的技术,只要有信息技术的地方就有计算机入侵,只要存在入侵就需要入侵检测系统。入侵检测从产生至今发生了非常大的变化,从简单到复杂,从单一到多样化。PE
在无线传感器网络中,由于传感节点部署的不均匀或者节点失效等原因,无线传感器网络部署区域内常常有一些区域无法被感知,形成所谓的覆盖空洞(覆盖盲区)。覆盖空洞的出现,不仅
数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,其目的就是要从大量数据中找出有意义的模式,因此具有广泛的应用价值。在数据挖掘的
本文对智能教学系统(IntelligentTutoringSystem,ITS)的相关概念、结构和功能进行了探讨,定义了教学资源模型、学生模型以及与之相关的教学资源智能导航,从整体上设计了一个基于
遥感技术的发展使得遥感数据量急剧膨胀,这给存储和传输带来不便,采取有效的编码,压缩数据量是解决这些问题的关键。 分形和小波编码技术是新一代编码技术,是目前静态图像编码