【摘 要】
:
特征选择是机器学习和数据挖掘的基础内容之一。传统的、与代价敏感学习相关的特征选择研究往往关注的是样本的错误分类代价,而特征代价本身,作为另一种代价类型经常被忽略。实
论文部分内容阅读
特征选择是机器学习和数据挖掘的基础内容之一。传统的、与代价敏感学习相关的特征选择研究往往关注的是样本的错误分类代价,而特征代价本身,作为另一种代价类型经常被忽略。实际上,特征的代价是固有的而且可能有很大的差异,例如在医疗诊断中不同医学测试在金钱、时间等方面的花费通常差别很大。如何在特征选择中体现这种特征代价的差异性,寻找兼有分类能力和低廉成本的特征子集是本文研究的课题。 本文分析了获得“物美价廉”的特征子集的可行性在于存在代价不同的冗余特征。为了合理地反映代价的作用,我们将代价转化为概率,并把这种概率应用到随机森林的框架下,构成特征代价敏感的随机森林(FCS-RF)。FCS-RF同普通的随机森林相比,特征被用到的概率(及频率)会受到代价的干扰,这种干扰继而体现在对特征重要性的评估上,使生成的特征重要性排序具有代价敏感性。具体地,我们给出三种方法构建FCS-RF,一是在树的生长过程中令节点分裂时每个特征被选中的概率与它的代价成反比;二是对所有的特征按照一定概率分布进行复制,使得复制后特征的数量的比例和代价成反比;三是每次建树前对训练集定量添加少数特征,这些特征按照和代价成反比的概率分布来生成。这三种方法,分别称作概率选择法、特征复制法、特征添加法,本质上,都是为了降低高成本特征被用的概率(提高低成本特征被用的概率),从而实现代价敏感的特征排序(选择)。在大量数据集上的实验表明这三种方法是有效的。特别地,应用在具有真实代价的两个数据集,KDD99大型数据集和自行收集的乙肝数据集上,我们的方法取得了良好效果。本文还对这三个方法做了进一步研究,分析了参数设置、时间效率等问题。
其他文献
随着我国工业的高速发展,企业安全生产工作的压力也越来越大,特别是在一些老工业城市表现尤为明显.在这些城市中,冶金、石化及原材料加工企业往往占比较大,高危行业企业较多,
2020年注定是一个不平凡的年度,新冠肺炎病毒一度肆虐,受此影响,企业应如何降低自身的损失,如何进行疫情期的风险管理,成为很多企业的重点思考方向.笔者结合中国石油集团渤海
“班组作业四知法”的定义与目的rn“班组作业四知法”对基层班组安全管理工作具有促进作用,能够较好地规范基层班组作业行为,提高基层员工对作业风险的认知能力和安全意识,
在实际问题中,许多控制系统都会受到一些不确定因素的影响从而引起系统参数的改变,例如部件故障或者外部扰动等。为了考虑这些不确定因素对系统的影响,就需要利用Markov跳变理论
网络控制系统是计算机网络与自动化技术交叉发展的产物之一,它是把网络作为控制的一种手段,可以称之为“网络自动化”。在网络控制系统中,网络不仅是控制系统的数据传输的一种媒
2020年1月,正当全国人民满心欢喜的迎接春节到来之际,新冠肺炎疫情的突然爆发给所有人的正常活动按下了暂停键,正常的社会秩序被打乱、持续向好的经济发展被停滞、人民的生命
本课题来自于某军工单位的专用集成电路入厂检测项目,所检测的五种专用集成电路是某型号导弹中的重要部件,为了保证质量,在装配前必须对其主要技术指标进行严格的测试。传统的手
在准备本期关于安防与监控系统的专题文章之前,笔者走访了一些从事安防领域的芯片厂商和系统制造商。和他们交流后发现,与芯片厂商主要关注技术与标准规范不同,系统厂商更多
实际中所获得的单变量时间序列往往长度有限并存在噪声,而且单变量时间序列所包含的信息具有不完备与不确定性,无法精确反映动力学系统的动态特性。相比单变量混沌时间序列,多变
1995年4月21日7时45分,美国新泽西州洛迪市的纳普科技公司(Napp)化工厂进行化学品混合作业时,发生意外反应,释放大量热气和恶臭气体,引发剧烈爆炸和火灾.事故导致5名员工死亡