面向分类的流特征在线特征选择研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:lichao984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,流特征的在线特征选择成为数据挖掘的热点。流特征在线特征选择是在保证预测精度的前提下,通过实时过滤无关和冗余特征来降低数据维度。本文针对当前面向分类的在线流特征选择中,存在分类精度较低、选择特征数量多或运行时间长等问题,从挖掘目标标签的近似马尔科夫毯的角度,分别提出面向二分类和多分类的流特征在线特征选择算法,并将在不同数据集中得出的算法结果应用在Decision Tree、KNN、SVM和Ensemble分类器上,分析算法的性能,验证算法的有效性。同时,在真实应用场景下,验证算法的适用性。首先,针对已有算法在二分类在线流特征选择中的局限性,如分类精度较低、选择特征数量多、在具有大量低冗余和高相关特征下运行时间长等问题,提出面向分类的在线流特征选择的技术框架和算法OSFIC。按照新到达特征阶段和分析候选特征集合两个阶段的流程,分别给出无条件下独立性检验过滤不相关新特征、单条件下互信息过滤冗余新特征、单条件下互信息过滤候选特征集合中部分冗余特征和多条件下独立性检验过滤候选特征集中的剩余冗余特征的各个阶段任务。并将OSFIC算法与Alpha-investing、OSFS和SAOLA算法在14个数据集上选择的特征应用到选定分类器,从分类精度、选择特征数量和运行时间等方面对比实验结果,验证算法的有效性。其次,针对流特征下多分类中存在类别分布不平衡导致分类精度低等问题,提出一种面向多分类的流特征在线特征选择算法MCFS。该算法基于“一对多”策略,通过将“一个多分类”问题转换为“多个二分类”问题。MCFS算法将目标标签的类别数进行统计,依次将每一类作为正例,其余类别作为反例,多次运用OSFIC算法进行特征选择,最终结果为每次选择特征的去重并集。将MCFS、Fast-OSFS和SAOLA算法运用在12个多分类数据集上,并将算法结果通过选定分类器中进行分类。最后,将OSFIC和MCFS算分别应用于真实的蛋白质谱和基因表达场景下,在选定的不同分类器上,通过比较在流特征产生的不同阶段时分类精度所发生的变化,验证算法的适用性。
其他文献
本文通过对“陶味”教育,幼儿劳动教育生活化价值以及“陶味”下幼儿园劳动教育的生活化进行了相应的研究,指出幼儿教师要注意挖掘自身与幼儿的榜样价值,充分发挥榜样的指导作用,根据幼儿的爱好开展劳动教育游戏,同时注意利用家校共育的教育方式,也要在劳动教育过程中不断加强与实际生活的联系,真正实现劳动教育回归现实生活,促使幼儿收获并享受劳动成果,丰富幼儿的劳动体验。
期刊
新课改背景下,国家颁布了全新的体育教学指导纲要,体育教学不仅需要传播知识技能,还需要打造出情境化、结构化、条件化的体育课堂,强化学生的核心素养。基于此,本文从小学体育单元化教学活动设计入手,明确小学体育课堂的实践路径(包括教学活动、教学方法、后续评价等环节),以求打造出以学生为主体的大单元教学活动,促进学生更好成长。
期刊
空气质量由于受到多种因素的影响而表现出复杂的变化模式。多变的大气反应系统使得空气污染物浓度的精准预测面临严峻挑战。对于每小时的空气污染物浓度预测问题来说,考虑空气污染的时空动态关系,分析大气污染物来源及异地输送轨迹传播规律,将对区域空气质量的精准预测是十分有益的。基于此,本文提出了一种基于大气污染物传播路径分析的空气质量预测方法,该方法充分考虑空气质量演变特征的时空动态关联关系,以搭建更精确、稳定
学位
本文研究的指向是从新中国成立至新时代发展时期的陶瓷艺术变迁与审美倾向的演变,景德镇陶瓷艺术作为中国陶瓷史上最为璀璨的部分,其装饰变革对当下陶瓷艺术走向产生着重要影响,景德镇因其独特的地域性和人文特色,在彩绘的发展历程中促使着装饰逐渐向绘画延伸,正如清末浅绛彩瓷绘从陶瓷装饰的束缚中崭露风采,象征着陶瓷装饰性与绘画性并存,并独立衍生出陶瓷绘画这一新的艺术形式。文章尝试从陶瓷装饰性的变化、重建及跨越到独
期刊
随着遥感技术和地理学不断向着多学科、多领域的方向发展,国内外遥感学家和地理学家面对不同的研究目标开发了大量的遥感地学模型,这些模型是解决复杂地球科学的有力手段,是认识自然规律的有效工具,在未来预测、现象理解、异常诊断、综合分析以及管理决策等方面均是不可或缺的。遥感模型集成是一种综合多学科模型和集成多种遥感地学资源,从整体上系统地研究环境问题的重要途径。但是由于模型的异构性和复杂性,传统的模型集成方
学位
随着区块链技术受到政府部门和金融机构等行业的广泛关注,学术界对区块链的理论研究也达到了热潮。为了提高区块链系统的运行效率,在离散时域内研究区块链系统交易的基本运行流程,建立数学模型,进行性能分析及系统优化。首先,基于每个区块的容量均有上限和区块所容纳的交易同时验证两个特点,引入限量机制和批量服务机制,构建带有批量服务的G-限量休假模型。采用嵌入马尔科夫链的方法,给出系统服务期开始时刻的交易数母函数
学位
人脸识别作为模式识别领域一个极其重要的分支,其在视觉领域技术中的应用不可替代。随着信息技术的发展,计算机视觉技术与数学的相结合,人脸识别的应用越来越成熟。但是在实际生活中,往往不能控制光照造成的阴影对人脸的遮挡而提供特别理想的人脸图像,使得一般的人脸识别表现得不理想,不能满足实际需求,因此如何解决光照造成人脸被阴影遮挡导致识别效果变差成为了实际应用中的人脸识别乃至模式识别领域有待解决的问题。在综合
学位
近些年来,伴随着各个领域信息化程度的提高,漏洞的种类和数量也在逐渐增多,这些漏洞一旦被黑客攻击利用,信息系统的安全性就会有很大的风险。与此同时,信息安全已经上升为国家战略,那么如何对已经存在的漏洞进行有效地分类管理,提高漏洞修复和管理的效率,则变得尤为重要。本文以漏洞文本日志为依据,以自然语言处理技术和神经网络技术为支撑,从漏洞文本特征表示和漏洞分类模型构建两个方面入手,对已知漏洞的分类技术进行了
学位
移动支付技术飞速发展,使人们对手机支付的安全性受到越来越多重视。当人们使用现有PIN码用户认证技术进行支付时,非法用户采用某种攻击手段(例如肩部窥探、污迹攻击等)容易获取用户密码,从而导致隐私泄露并造成经济损失威胁。目前流行的很多基于生物生理特征的用户身份认证技术不但需要额外的硬件设备支持,而且极易侵犯用户隐私。为弥补上述身份认证技术的缺陷,论文提出了一种新的基于手机姿态感知的移动支付PIN码加密
学位
人体姿势估计作为计算机视觉领域的基础任务,对计算机视觉领域的其他任务有很大影响,相关的研究工作已经将深度学习算法应用于人体姿势估计任务中,从一定程度上提高了人体姿势估计的准确性。但是由于特征提取维度不全面、信息传递不充分等问题,使得人体姿势估计模型的准确率受到了一定的限制。本文针对以上问题,从模型中各模块的内部网络设计和模型中各模块之间的特征传递两个角度进行建模,分别提出了基于多维特征融合的级联网
学位