基于差异性度量的文本数据特征选择方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:shion31208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是一种能够有效的处理、管理和组织文本数据的关键技术,能够很好地帮助人们快速定位查找信息,有效的解决信息杂乱问题。文本分类具有极大的应用价值,是数据挖掘领域中研究的一个热点。由于文本数据具有高维性,导致文本分类的效率和分类准确度大打折扣,因此特征选择成为文本分类中至关重要的一环。特征选择可以删除那些包含信息量少或者与类别不相关的特征,从而得到区别能力强的特征子集,它能有效地剔除冗余特征和噪声,降低数据的维度,从而提高分类的准确度及速度。本文首先详细介绍了文本分类的流程以及各个过程中使用的相关技术,然后对特征选择的相关过程以及相关技术进行了深入研究。本文的主要研究工作如下。传统的特征选择算法一般只考虑了特征之间的相关性和冗余性,而对于特征之间的差异性考虑甚少,本文从特征的差异性出发,提出了一个综合考虑特征之间相关性、冗余性和差异性的特征选择算法。传统的特征选择算法对于特征之间的差异性考虑甚少,导致特征子集之间的冗余度不能完全消除,这大大降低了特征子集的类别区分能力。本文提出的特征算法综合考虑了特征之间的差异性和冗余度,使得特征之间的冗余度很小,同时保证特征与类别的相关性,这样得到的特征子集会有更强的类别区分能力。本文中使用了基于信息论的信息距离度量来评估特征之间的差异性,并引进了一个平衡系数来平衡特征之间的冗余度和差异性。本文将提出算法与JMI、IG、mRR算法做了对比性实验,并对实验结果进行了分析。本文提出了一个基于特征信息距离聚类的特征选择算法IDMCFS,该算法结合了有监督和无监督学习。在IDMCFS算法中充分考虑了特征之间的差异性,首先在原始特征集合中使用K中心点聚类算法进行聚类,冗余度高的特征被聚集在一起,不同类簇间的特征差异性较大。聚类算法中使用的距离度量是信息距离,这是一种基于信息论的差异性距离。聚类算法使用的是K中心点聚类算法,而且在聚类迭代过程中特征之间信息距离的值是不变的,只需计算一次,这大大降低了算法的计算复杂度。在聚类后,从每个类簇中选择出一个与类别互信息最大的特征,组成一个特征子集,并用mRMR法则在该特征子集中挑选出m个特征,来保证最终选出的特征子集与类别之间的相关性。我们对提出的算法与mRMR、CMIM和ReliefF三种算法做了对比实验,并对结果进行了分析。
其他文献
随着我国社会经济的飞速发展,人口老龄化程度不断加深,越来越多的老年人利用自己的闲暇时间加入志愿服务活动,投身社区建设,推动社区发展,实现“老有所为”。但老年志愿者在
研究背景:骨质疏松(OP)发病的病理机制为破骨细胞(OC)骨吸收的速率超过成骨细胞(OB)骨生成能力,从而导致负性骨平衡。人体骨骼持续不断地进行更新和重建,从而维持骨的新旧交
桩基础以其承载力高、适应性强、强度大和沉降稳定等优点,被广泛应用于高层建筑、大型厂房、桥梁、铁路和海上采油平台等大型项目中,是常见最实用的深基础。在高层建筑、海上
随着煤炭行业黄金十年的一去不复返,煤炭行业企业面临的市场形势日益严峻。国内煤炭产能急剧释放,国外进口煤炭数量节节攀高。在如此煤炭价格骤降的市场态势下,煤炭企业该向
社会主义和谐社会建设需要合格的公民,而合格公民的培育离不开教育。公民教育力图通过学校、社会及其他有效途径,有目的、有计划地培养全体社会成员具有广博公民知识、健全公
随着竞技健美操的蓬勃发展,各国顶尖选手的运动水平差异日益减小,在比赛中的竞争愈演愈烈,并朝着“难、新、美、稳、准”的方向前进。各国参赛选手为了增强与同伴的竞争力,高
“说不上X”构式是现代汉语中常见的一个结构,如“说不上漂亮”。本文运用构式语法理论,对其构式意义、构件特征进行考察,在此基础上探讨该构式的功能以及形成的机制与动因,
随着数据采集技术的发展和互联网应用的深入,越来越多的应用领域的数据呈现高维化趋势。相较于低维数据,各种机器学习方法和任务在高维度数据上面临严重的挑战。此外,在现实
研究背景与目的肥胖流行广泛,是第六位影响全人类健康的危险因素。肥胖与糖尿病、高脂血症、非酒精性脂肪肝等代谢综合征的发生密切相关。全基因组关联分析(GWAS)发现,ETV5基
目的在细胞水平,建立以细胞内游离钙离子浓度为检测指标的糖尿病治疗药物筛选模型。在组织水平,建立胰岛素双时相分泌的灌流模型。并以此为基础,探究金丝桃素对胰岛β细胞的