基于改进CHI和带权ECE结合的特征选择方法

来源 :计算机应用研究 | 被引量 : 7次 | 上传用户:xulele2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补ECE方法倾向于选择弱区分能力高频特征的缺陷(ωECE)。在综合两种改进后方法的基础上,进一步提出基于改进CHI和带权ECE结合(pCHIωECE)的特征选择方法。经对比实验验证,pCHIωECE方法的查准率、F_1值均优于CHI、ECE及pCHI、ωECE
其他文献
围绕超算资源的易用性和多类软件的集成以及协作需求,开发了超算环境下的科学工作流应用平台,设计了异步并发的流程执行引擎,采取调度算法和调度器、引擎相分离的设计策略,给出了资源调度方案。提出了局部资源池化技术和资源预约算法,并比较分析了五种常用调度算法的性能,给出了算法选择的建议。实际应用表明设计的引擎能够支撑复杂工作流的灵活执行方式,给出的资源调度方案能够满足超算环境下工作流应用的高效执行。