文本数据挖掘中基于云模型的特征选择方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:tsl9906202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临以及互联网络的飞速普及,人们的生活习惯也随之发生了很大的变化,把更多的时间和精力从报纸刊物转向了网络媒体。网络媒体已经成为了人们获取信息的重要途径。但是,面对浩瀚如烟的海量网络数据,如何快速准确地定位到自己感兴趣的内容,成为了我们需要解决的问题。文本数据挖掘是利用计算机通过某种手段从文本数据中获得有价值信息的一项技术。其中,文本分类和文本聚类是这项计算机处理技术中非常重要的两种方法。研究发现,用于分类和聚类中传统的特征选择方法无法考察特征词词频在文本集合中的分布,因而这些方法不能精确地衡量特征词的类别区分能力。为了弥补这点不足,本文将云模型理论引入文本特征选择中,所做的工作主要有以下几个方面。第一、对文本分类和聚类技术进行了较为详细地阐述。对其中传统的特征选择方法做了深入地研究和探讨,详细地对比和分析了它们的区别和存在的不足。第二、在文本分类中,利用云模型理论分别从关联度和区分度两个方面来衡量特征词的重要程度。本文将特征词映射成分类词云滴,用关联云来描述词云滴在单个类别中的分布,用区分云描述词云滴在多个类别中的分布,进而构建关联云过滤器和区分云过滤器进行特征选择。实验采用朴素贝叶斯和SVM这两种分类器来验证这种方法的有效性。第三、在文本聚类中,利用云模型理论将特征词映射成聚类词云滴,并将词云滴跃升聚类文档云。构造聚类文档云过滤器在无类别标识的文档中选择有区分能力的特征词。实验采用K-means聚类算法验证了聚类云特征的有效性。总体而言,本文基于云模型理论中不确定性思想,并结合不确定性概念中的模糊性和随机性对文本数据挖掘中的特征选择进行了初步的研究。在分类和聚类两个方面取得了一定的成效。
其他文献
随着社会的发展,安全问题越来越重要。步态识别作为一种新兴的生物特征识别技术,旨在从不同运动个体的行为中提出各自的变化特征,达到实现对目标的自动身份识别。与其他的生
云计算正在给经济社会带来巨大的变革。无论是个人生活还是公司运营都在向云计算靠拢。云桌面作为云计算的一种应用,也受到公司管理者的高度关注。因此,实验室也研发了一款云
在云计算趋势下,桌面虚拟化越来越成为一个关注的热点。桌面虚拟化将用户的桌面操作系统集中运行在服务器端,服务器使用虚拟化技术,在一台物理服务器上同时运行多个桌面操作
随着家居电商的进一步发展,用户对个性化推荐的需求与日俱增,各种各样的推荐算法开始应用其中。传统的聚类推荐算法,每个参与的用户或物品只能属于一种类别,因此很难描述每个
近几十年来,随着半导体工业飞速发展,片上能集成的晶体管数目越来越多。如何有效组织片上日益增加的晶体管数目,来设计与制造更高性能的处理器,是计算机体系结构面临的一个重要挑
近年来,随着多传感器信息融合技术的发展,红外与微光图像的融合已成为图像处理领域研究的一个热点,在夜视图像研究领域更是备受关注。红外热像仪输出的图像反映的是目标场景
Web服务作为实现面向服务计算的标准技术,是一个平台独立的、松耦合的、自包含的、基于可编程的Web的应用程序,它采用开放的XML标准描述、发布和配置这些应用程序,由于其对异
网络流量分类识别是互联网研究领域的重要分支。互联网流量的深入分析研究对于网络扩容和优化、网络安全、上层用户行为分析等具有重要意义。近年来,互联网的持续演进和发展给
无线传感器网络的节点能量非常有限,全部由自带电池供给难以更新,因此在路由设计时如何最大化地节省节点的能量以延长网络寿命是无线传感器网络发展亟待解决的关键技术和重要问
在经济全球化的背景下,选择合适的合作伙伴共同完成生产任务,是保证生产顺利进行和企业最终盈利的关键。合作伙伴的选择包括综合评价和优化组合两个主要环节。科学有效的综合