基于相关性的SPEC特征选择算法的研究与应用

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:ruocich
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习和深度学习技术的飞速发展,各类学习模型越来越成熟,人们的关注点从算法模型逐渐转移到数据处理和特征提取上。特征的好坏可以使用特征选择算法来衡量,特征选择算法从统计学的角度分析特征的好坏,从而更好的理解数据本身和提取更好的特征。本文旨在研究特征选择算法的优化,使特征选择算法具有更好的效果,从而适用于更多的场景。本文的主要工作以及创新点如下:第一,针对SPEC特征选择算法在包含数值型特征场景下的计算能力不足,提出了一种基于最大信息系数(MIC)的SPEC特征选择改进算法(SPECMIC),SPECMIC特征选择算法使用MIC计算相关性,增强了计算数值型特征相关性的能力,更好的适用于包含数值型特征场景。实验证明SPECMIC特征选择算法面对包含数值型特征的数据集具有更好的效果。第二,构建APP使用预测模型来分析用户使用APP的行为。使用SPECMIC特征选择算法对特征进行分析,通过筛除冗余特征、不相关特征和噪声特征,使得最优特征子集维数减少900维,模型的准确率提升了 3%左右。第三,针对SPEC特征选择算法的最优特征子集的中间段特征排序混乱的问题,提出了一种基于相关性的SPEC特征选择改进算法(RSPEC)。RSPEC特征选择算法通过在SPEC特征选择算法中加入相关性因子,增强相关性高冗余性高特征的重要度,降低相关性低冗余性低特征的重要度,从而使特征排序结果更合理。实验证明RSPEC特征选择算法对于特征中间段排序具有更好的效果。第四,构建黑词检测模型来提取恶意网址检测模型需要的黑词。分析现有的TF-IDF关键词提取算法在恶意网址检测模型中的不足,提出了一种基于特征选择算法提取关键词方法。实验证明在恶意网址检测模型的关键词提取方面,使用特征选择算法提取关键词具有更好的效果。此外,在黑词检测模型中对比SPEC算法和RSPEC算法提取的关键词效果,证明了 RSPEC特征选择算法在中间段特征排序方面更有优势。
其他文献
一个月前,我将爱车交由一家汽车美容店进行洗车、打蜡、修复划痕等保养服务后,因有急事要办而随即离开。美容店老板完成好相关事项,觉得反正我没那么快回来取车,便擅自驾车前往火
因臀部深层梨状肌损伤引起腰痛及坐骨神经痛临床并不少见,笔者自1998年至2002年用普鲁卡因加曲安奈德局部注射治疗梨状肌综合征35例,效果满意.报告如下.
目的复制老年鼠急性肺损伤(ALI)模型,为进一步探讨其发病机制奠定基础.方法将210只24月龄Wistar大鼠随机分为油酸+脂多糖组(O+LPS组)、油酸组(O组)、脂多糖组(LPS组).O+LPS组
1临床资料例1患者,男,37岁,农民。因“上呼吸道感染”在村卫生室给予头孢拉定5.0g,利巴韦林(病毒唑)0.5g,加10%葡萄糖溶液500ml静滴。第1天输液结束后患者感腹部轻微疼痛,村医及患者均未
患者王某,女,50岁。因患急性胃肠炎在我处静脉滴注氯霉素致癔症样发作。2006年9月27日下午,王某因腹痛、腹泻、呕吐前来就诊。自诉展起腹痛、呕吐、腹泻十佘次,水样便,便后腹痛减
目的观察32P-胶体磷酸铬治疗癌性胸腹水的疗效.方法在B超定位下,行胸腹腔穿刺术,反复抽吸胸腹水后,注入32P-胶体磷酸铬.结果完全缓解(CR)58.14%,部分缓解(PR)20.93%,总有效率
益母草在临床治病应用较广。益母草有活血调经,利尿消肿,祛瘀生新作用。用于月经不调,痛经,经闭,恶露不尽,疮痈肿痛,皮肤痒疹。益母草还有美容的功效。益母草全草含有益母草碱、水苏
氧化修饰低密度脂蛋白(OxLDL)是沉积在血管壁中的血浆低密度脂蛋白(LDL),在过量自由基存在下使LDL中的多价不饱和脂肪酸发生过氧化产生丙二醛(MDA),MDA再与LDL中载脂蛋白B(apoB)中赖氨
湘西苗族银饰作为湘西民族历史文化的载体,蕴含着与苗族人民息息相关的民族习俗、宗教信仰、巫术祭祀礼仪等文化内涵。随着民俗旅游业的发展,苗族银饰越来越多地受到国内外游客的关注与喜爱,笔者通过文献分析、实地考察、比较研究等方法梳理,发现目前市场现有的苗族银饰包装存在着本土文化内涵缺失、品牌意识薄弱、创新意识不强等不利于产品销售的问题。在多元化的现代商业环境中,随着消费者购买能力与审美水平的提高,消费者越
目的探讨多巴胺静脉滴注治疗小儿喘憋性肺炎的疗效.方法采用随机对照方法分析54例喘憋性肺炎患儿使用多巴胺(速度计量为2-5μg/kg/min,每天2小时,静脉滴注)与不使用多巴胺的