非均衡文本分类中基于特征分布的抽样技术研究

来源 :第六届全国信息检索学术会议 | 被引量 : 0次 | 上传用户:jimmyzcc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOTE算法提出的通过构造新的小类样本做Over-Sampling的思路,独立处理各个特征维度,实现了真正的基于特征的抽样。使用对各类分布模拟能力最强的高斯混合模型对小类中每个特征的权值分布建模,再依据该模型抽取新权值以进一步组合为新样本加入小类训练集。该方法完全基于特征抽样,能够有效地避免过学习现象。同时,由于对特征的建模及抽样过程严格遵守特征原始分布,构造的新样本质量高。实验结果表明,该方法效果良好,并显著好于SMOTE算法。
其他文献
本文简要分析了财务会计核算工作在建筑施工单位运行时存在的问题:财务会计工作流程不完善、会计核算依据不健全;提出了建筑施工企业提升财务会计核算有效性的具体措施:完善
互联网已经成为当今社会人们沟通交流的重要平台,越来越多的人在Web 2.0系统中发布分享自己的个人兴趣与爱好信息。在一个网上评价系统中,用户可以根据自己的喜好为目标资源打
会议
排序学习是当前机器学习与信息检索交叉领域的研究热点。它利用机器学习方法自动地构造排序模型,用于排序新的数据。Pairwise方法是一类重要的排序学习方法,它以偏序文档对作为
随着民航和科技的发展,飞行事故率在不断降低,但民航客运量在逐步增加且事故率中的人为因素在不断上涨.如果不降低人为差错率,事故数量将会不降反曾,而人为因素中飞行人员心
面向信息检索的语言模型存在较严重的数据稀疏问题,由于近邻信息能够较好地反映词的分布,因此将文档的近邻信息加入语言模型的平滑中,新方法称为近邻语言模型。实验结果表明,近邻
事业单位统计工作的规范化管理所具备的价值尤为显著,其利于促进事业单位统计工作的顺利开展,提升工作开展的实效性,与此同时也利于推动我国事业单位获得进一步的发展.然而以
由于Web数据库具有自治性和异构性的特点,造成了各查询接口在内容、形式以及查询能力上都不尽相同,使得用户的查询请求受限于其给定的查询接口的表达能力,这给查询转换的准确性
会议
当前的Web服务注册架构缺少能够高效、准确、充分发现服务的分类管理机制,导致业务需求不能满足,造成服务资源浪费.针对某一特定领域,进行Web服务的分类管理显得格外重要.本
会议
企业的生存和发展必须建立在一个健康的内循环环境下,因此企业必须时刻提高经营中影响企业发展的各种风险警惕性,减少企业风险损失.而税务风险是指企业未按照国家税务政策执
近几年来,随着科学技术的不断发明与创造,社会也在不断的进步,各行各业也都在改进和完善自身的管理与经营,以适应时代前进的规律与速度.就电力行业而言,电力电网的错综复杂,