面向文本分类的去冗余特征选择方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:zy198187
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为数据挖掘中的研究热点之一,在处理海量数据资源中有着重要地位。由于文本是一种非结构化数据,需要通过文本表示方法将其转换为数值形式,表示后的文本数据通常具有非常高的维度。因此,在文本分类之前需要对文本特征进行选择,以期能够从原始特征空间中选择出有益于分类任务的特征子集。这样不仅可以提高文本分类性能,还能够降低分类任务的计算量。目前常见的特征选择方法着重关注了特征的相关性,选择出的特征子集通常具有较高的冗余。本文主要针对现有特征选择方法忽略特征冗余性的问题,提出三种去冗余的文本特征选择方法。主要的工作内容总结如下:(1)提出了基于词向量的去冗余特征选择算法。针对现有文本特征选择方法未考虑词语之间联系以及语义信息的问题,本文引入文本特征的词向量表示,结合相对判别准则,提出了基于词向量的去冗余特征选择算法。该算法用词向量之间的相似性来衡量特征之间的冗余性,用相对判别准则来度量特征与类别的相关性。实验验证了该算法的可行性。(2)提出了基于特征关联度的去冗余特征选择算法。基于词向量的去冗余特征选择算法在计算特征相似性的时候仅考虑了词向量的距离,未考虑特征的分布。为此,本文在特征分布信息的基础上定义了特征关联度,结合相对判别准则,提出了基于特征关联度的去冗余特征选择算法。该算法用特征关联度来衡量特征冗余性,用相对判别准则来度量特征与类别的相关性。实验表明该算法能够更有效地去除冗余。(3)提出了基于判别关联度的去冗余特征选择算法。上述创新点的去冗余方案只利用了特征之间的直接关系,未在判别信息条件下考虑特征之间的关系。为此,本文在特征关联度的基础上定义了判别关联度,结合互信息提出了基于判别关联度的去冗余特征选择算法。该算法用判别关联度来衡量特征冗余性,并用互信息来加强度量特征与类别的相关性。实验表明该算法在去冗余方面有进一步的提升。
其他文献
结构、组分可设计的含糖聚合物与蛋白质具有特异性多价相互作用,可用于模拟细胞间识别,细胞表面的寡糖分子与外界病原体的识别等诸多生物学事件,因此在新兴的糖生物学以及生命科学等领域扮演着重要角色。含糖聚合物功能化纳米材料由于其具有尺寸可调、极高的比表面积以及优良的生物相容性等优点,在生物材料领域得到了广泛地应用。本文通过可见光引发可逆加成-断裂转移(RAFT)自由基聚合的方法合成得到了一批具有不同单体组
学位
在单因素试验基础上,利用响应面法优化聚酰胺和大孔吸附树脂纯化竹叶花椒黄酮的工艺,考察酰胺-大孔吸附树脂用量比、上样质量浓度、上样液流速、洗脱剂浓度、洗脱剂流速、洗脱剂体积对竹叶花椒黄酮纯化效果的影响,同时通过DPPH自由基和ABTS自由基的清除试验对竹叶花椒黄酮的抗氧化活性进行评估。结果表明,聚酰胺-大孔吸附树脂用量比3︰5 (g/g)、上样质量浓度6 mg/mL、上样液流速1.5 mL/min、
期刊
碳纳米管(Carbon Nanotube,CNT)具有出色的机械性能,优良的热稳定性和良好的电学性能,在很多领域都具有广泛的应用。如今,在军事和日常用途中对柔性高性能电磁干扰(EMI)屏蔽材料的需求日益增加。具有高电导率的金属材料或粉末碳材料,或者具有高磁导率的过渡金属氧化物等是常见的电磁屏蔽材料添加剂。然而为了获得高屏蔽效率(Shielding Effectiveness,SE),往往需要在复合
学位
目前我国正在建设环境友好型社会,以期实现人与自然的和谐共处。观鸟是一项起源于欧美国家一种户外休闲活动,也是一种体验式科普活动,有利于提升参与者的环保意识,近年来中国也有了相当规模的观鸟组织和鸟类爱好者群体,对优质的鸟类图书的需求正在增加。由于国内的观鸟活动起步较晚,虽然发展扩张的速度较快,但相应题材的原创图书数量和质量上都还逊色于国际水平,阅读体验还有待改善。因此本文从阅读体验出发,深入调查鸟类爱
学位
目的:分析急性呼吸道感染(Acute respiratory tract infection,ARTI)临床使用抗菌素治疗现状,以及与多病原检测、临床特征性表现的关系。方法:(1)采用回顾性方法,选取2015年1月至2019年12月连续5年因ARTI在苏州大学附属儿童医院呼吸科住院治疗的8394例患儿为研究对象。(2)入院后采集鼻咽分泌物及血清标本进行多病原学检测。根据多病原学检测结果分为病毒感染
学位
长期以来,中国的农村产权交易面临产权权属不明晰、法律法规不健全、政策“红线制约”、农村工作复杂性、地方发展不平衡等各种制约和难题,包括土地和房屋在内的农村资源难以进入市场自由交易,这被认为这是农民收入增长乏力的重要因素。传统交易模式下,村集体资产的交易主要在村和乡镇一级的管理系统内部循环,一些大宗的交易由镇领导拍板,数额较小的由村干部和村委会成员自己决定,这也成为了腐败滋生的土壤和环境。如何在盘活
学位
卷草纹是植物纹样中的典型代表,它以独特的造型、高度的艺术审美价值、丰富的文化内涵成为人们喜爱的装饰纹样之一。将卷草纹创新应用于现代女装设计中,是对其进行活态化传承的有效路径,也是我国现代女装设计在世界舞台上的生存与发展之道。在搜集图文资料的基础上,采用文献研究法、比较分析法、案例分析法、形状文法、实践探究法,针对卷草纹在现代女装设计中的应用问题进行了专题性、系统性研究。第一章梳理了卷草纹的概念、历
学位
数字化传播媒介的兴起带来了信息传播的多样化途径,纸本书籍作为基础的传递信息和知识的物质媒介是否会被便捷的电子书取代,这是当下面临的问题。当人们开始唱衰纸本书籍的未来、谈论电子书籍的种种特性时,也为纸本书籍创造出一个新的发展机会,如今的纸本书籍已不仅仅是传递信息的媒介,书籍设计比过去更加重要。在此背景下,书籍设计者应该以读者参与为导向,用设计语言和编辑思维挖掘、开发新的书籍形式特征和文本序列,构建多
学位
目的:采用人体肠道模型发酵系统,通过对功能性便秘(functional constipation,FC)的幼儿粪便进行发酵分析,研究乳果糖(lactulose,LAU)在结肠被肠道菌群降解率和代谢,探讨LAU治疗幼儿FC的作用机制与疗效的关系,为今后LAU治疗幼儿FC提供个体化及精准化方案。资料与方法:选取2020年5月至2020年12月期间于苏州大学附属儿童医院门诊21例符合罗马Ⅳ诊断标准的FC
学位
作战意图识别是指对敌方目标的状态信息进行分析,从而解释和判断敌方想要达到的目的。随着作战平台信息化程度的不断提高,这些具有时序性的敌方状态信息呈现多维、海量的特点。面对这样的特点,提出基于神经网络的方法学习敌方状态信息。由于作战意图具有层次性,并且意图行为之间具有依赖关系,设计了一种层次聚合模型,模型底层基于卷积神经网络感知行为特征,中间层基于双向长短时记忆网络聚合子意图之间的长时依赖信息,表达意
期刊