【摘 要】
:
在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出
【机 构】
:
中国科学院计算技术研究所; 北京语言大学;
【基金项目】
:
国家973项目(2007CB311103);国家自然科学基金项目(60873166);国家863项目(2006AA010105)资助
论文部分内容阅读
在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOTE算法提出的通过构造新的小类样本做Over-Sampling的思路,独立处理各个特征维度,实现了真正的基于特征的抽样。使用对各类分布模拟能力最强的高斯混合模型对小类中每个特征的权值分布建模,再依据该模型抽取新权值以进一步组合为新样本加入小类训练集。该方法完全基于特征抽样,能够有效地避免过学习现象。同时,由于对特征的建模及抽样过程严格遵守特征原始分布,构造的新样本质量高。实验结果表明,该方法效果良好,并显著好于SMOTE算法。
其他文献
目的利用血氧水平依赖性磁共振脑功能成像(BOLD—fMRI)技术观察运动中枢病变患者治疗前后的中枢激活体积的变化,探讨fMRI定量分析对揭示正常脑功能区激活特点和临床康复治疗评价
目的 研究外中耳先天畸形的高分辨CT(HRCT)表现,为临床诊断和治疗提供准确信息。资料与方法 对临床诊断的外、中耳先天畸形35例行HRCT扫描,单纯横断位扫描5例,横断位加冠状位扫描3
采用浸渍法制备V2O5-WO3/TiO2催化剂,研究了活性组分WO3和V2O5含量对催化剂脱硝活性的影响。在催化剂载体中加入SiO2或Al2O3粉末,考察了复合载体对催化剂性能的影响。实验结果表
循环冷却水处理是工业生产中的一个重要环节.臭氧作为单一的水质稳定剂在循环冷却水中具有缓蚀作用.研究结果表明:吸附在金属表面的臭氧使金属表面从活化腐蚀状态转变为钝化
对攀钢热轧板厂浊环泵站运行中存在的问题进行分析并提出解决同题的对策.
在如何科学认识经济发展规律,正确把握经济的增长速度方面,我们党有着十分丰富的经验和教训。邓小平在总结这些经验教训的基础上,对我国经济增长速度与社会文明进步、国家稳定发
该发明涉及一种处理高浓度丙烯腈废水的吸附氧化方法。首先向丙烯腈废水中投加絮凝剂水溶液,搅拌,静置,使絮体沉降至容器底部,再将废水经过微滤膜或超滤膜去除废水中的悬浮颗粒、
难降解石化废水的深度处理工艺及装置该发明公开了一种难降解石化废水的深度处理工艺及装置,其中工艺包括以下步骤:(1)石化废水处理厂二沉池输出的废水进入调节池反应装置,对二沉
时变可靠性问题中存在大量不确定参数,对其不确定性建模及可靠性分析具有重要的工程意义。本文针对结构输入参数存在的区间不确定性问题,提出了一种求解时变可靠性的区间PHI2
目的探讨三维增强磁共振血管造影(3D—CE-MRA)技术对肠系膜动脉成像的方法。资料与方法对20例正常肠系膜动脉行3D—CE—MRA成像,比较分析原始图像和重组图像上肠系膜动脉的主干