基于TFIDF-GA特征选择的文本模糊聚类方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户：zooton2009

【摘要】

：

文本聚类是在没有文本类别标记的情况下对文本进行分类，使同类别的文本间相似度尽可能大，不同类别的文本间相似度尽可能小。而今，随着信息的爆炸式增长以及学科类别间的交叉渗透

【作者】

：

邓高超

【机构】

：

南昌大学

【出处】

：

南昌大学

【发表日期】

：

2014年期

【关键词】

：

文本模糊聚类特征选择遗传算法模糊C均值算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本聚类是在没有文本类别标记的情况下对文本进行分类，使同类别的文本间相似度尽可能大，不同类别的文本间相似度尽可能小。而今，随着信息的爆炸式增长以及学科类别间的交叉渗透，文本日益大量化和多样化，文本的类别隶属度界限越来越不明确。于是，文本模糊聚类渐渐成为文本聚类的另一个研究方向。本文从特征选择和模糊C均值算法两个方面对文本模糊聚类进行研究：1、无监督特征选择方法。特征选择方法主要有过滤式、封装式和嵌入式三种，本文结合过滤式和封装式方法，即词频-反文档频率（Term Frequency-InverseDocument Frequency，TFIDF）算法和遗传算法（Genetic Algorithm，GA）相结合，提出基于TFIDF-GA的无监督特征选择方法。该方法通过改进后的TFIDF公式计算特征权重，然后根据选择规则得到初始特征子集，将该特征子集作为遗传算法的初始种群进行迭代搜索。初始特征子集能够为遗传算法提供较好的搜索起点，加快搜索速度，同时遗传算法的自适应全局搜索能力能够启发式搜索到具有很强分类能力却没有包含在初始特征子集中的特征。2、模糊C均值聚类算法。模糊C均值聚类算法（Fuzzy C-Means，FCM）在基于目标的模糊聚类算法中应用最为广泛。本文对FCM算法进行改进，使用密度参数初始化聚类中心，能在一定程度上降低由于初始聚类中心选取的随机性对算法产生的误差；在FCM算法的约束条件中引入信息熵，更好地描述数据的实际分布情况。本文从特征选择和FCM算法出发，提出基于TFIDF-GA和改进的FCM算法的模糊聚类算法，实验结果表明该算法可以得到较高质量的聚类结果。

其他文献

基于J2EE平台部分瓶颈性能优化的研究与实现

J2EE是一种利用JAVA平台来简化企业信息系统的开发、部署和管理等相关复杂问题的体系结构，它为开发人员提供了一个基于组件的方法来设计、开发、装配和部署企业级应用程序的方

学位

性能优化设计模式应用服务器虚拟机组件设计

EFSM模型字符串测试数据自动生成研究

随着软件应用领域的不断扩展和软件规模的不断扩大,如果软件质量得不到保证,就可能会造成巨大的人身和财产损失。软件测试是保证软件可靠性和安全性的重要技术手段,而测试数

学位

扩展有限状态机符号执行遗传算法测试数据生成字符串字符串距离

基于智能主体的分布式入侵检测系统

随着计算机和网络的普及和飞速发展，网络用户面临着日益严重的安全问题，网络入侵已经成为计算机安全和网络安全的最大威胁。入侵检测作为一个迅速发展的新领域，已经成为网络安全

学位

网络安全入侵检测智能主体按需装配

基于危险模式理论的入侵检测算法的研究与设计

近几年，随着入侵检测技术研究的深入，人们发现由于计算机的运行机理和生物体有着天然的相似之处，生物免疫系统成功保护机体免受各种侵害的机理为研究计算机安全，特别是入侵检测技

学位

入侵检测系统异常检测人工免疫系统危险模式理论免疫算法

点集模型的纹理合成技术研究

近年来，基于点的图形系统(PBG，Point-BasedGmphics)开始引起人们广泛的关注，成为图形学研究领域的一个热点。在吸收和借鉴传统的网格模型上的纹理映射和纹理合成技术的基础上，本

学位

图形系统点集表面纹理贴图表面分割共形映射层次参数化图分割

基于条件随机场的入侵检测方法研究

入侵检测是一项历久弥新的技术，只要有信息技术的地方就有计算机入侵，只要存在入侵就需要入侵检测系统。入侵检测从产生至今发生了非常大的变化，从简单到复杂，从单一到多样化。PE

学位

入侵检测PE病毒API调用序列攻击树条件随机场

无线传感器网络中的覆盖空洞探测机制研究

在无线传感器网络中,由于传感节点部署的不均匀或者节点失效等原因,无线传感器网络部署区域内常常有一些区域无法被感知,形成所谓的覆盖空洞(覆盖盲区)。覆盖空洞的出现,不仅

学位

无线传感器网络覆盖空洞网络生存时间网络模型覆盖空洞探测算法

基于抽样的分布式关联规则挖掘算法

数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，其目的就是要从大量数据中找出有意义的模式，因此具有广泛的应用价值。在数据挖掘的

学位

分布式关联规则挖掘抽样元学习相似度概念格

适应性学习系统的研究与实现

本文对智能教学系统(IntelligentTutoringSystem，ITS)的相关概念、结构和功能进行了探讨，定义了教学资源模型、学生模型以及与之相关的教学资源智能导航，从整体上设计了一个基于

学位

智能教学系统教学资源模型学生模型智能导航

遥感图像的分形和小波混合编码研究

遥感技术的发展使得遥感数据量急剧膨胀，这给存储和传输带来不便，采取有效的编码，压缩数据量是解决这些问题的关键。分形和小波编码技术是新一代编码技术，是目前静态图像编码

学位

遥感图像分形小波编码图像压缩线性函数

基于TFIDF-GA特征选择的文本模糊聚类方法研究

与本文相关的学术论文