基于快速文本分类器与不平衡数据的研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:marinefish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据不平衡问题一直是统计、机器学习以及计算机科学等领域的重点研究课题。如果直接应用基于平衡数据的统计方法由于没有考虑到数据的不平衡性而导致模型性能较差。许多学者都对这一问题进行了深入的研究,并取得了显著的成果。FastText算法在文本分类中有着广泛的应用。该算法是文本分类的单层神经网络,可以快速且准确的对于平衡数据进行分类,但对于不平衡数据的处理能力有所不足。为了解决这个问题,本文通过采用不等比例的欠采样方式来训练单一的FastText分类器,再通过Bootstrap组合多个弱分类器,这样可以充分利用多数类的数据信息,达到提升分类器性能的目标。将本文提出的方法应用到文本情感分类的实际场景中,对于不平衡的情感数据可以训练出拟合程度更高的模型,有效的提高情感分类的准确率、召回率以及F-score。
其他文献
目的:研究等速被动测试指标与改良Ashworth法在进行肌痉挛评定中的相关性。方法:对20例脑损伤后肌痉挛患者进行肌张力研究。使用改良Ashworth评定量表进行肌张力评定,然后采用Bi
滇东北地区既是一个资源丰富的地区,同时也是生态脆弱区,如果依照传统的粗放型的生产方式进行资源开发和利用,既会造成资源的浪费,又必将导致生态环境的进一步恶化,最终导致
目的:观察肾康注射液治疗早期糖尿病肾病的临床疗效。方法:将我院收治的早期糖尿病肾病患者40例随机分为对照组和治疗组,其中对照组20例,仅给予常规治疗;治疗组20例,在常规治
<正>一、PISA简介国际学生评价项目(PISA)于1997年启动,由OECD负责组织各国教育专家讨论、设计,历时3年,于2000年首次在32个国家进行测试。其中从28个成员国中选取265000名15
<正>11月5日,由中国证券业协会制定的《并购重组私募债券试点办法》正式发布。同日,沪深交易所也分别发布《关于开展并购重组私募债券业务试点有关事项的通知》,标志着并购重
目的对静脉输注化疗药物进行风险管理,并观察管理的效果。方法分析静脉输注化疗药物存在的风险,制订强化护士风险意识、加强专业知识学习和专业技能训练、改进静脉穿刺方法、
[目的]Pauwels Ⅲ型股骨颈骨折,骨折线相对垂直,骨不连发生率高,本研究即骨折以有限元分析的方法分析5种内固定方式固定Pauwels Ⅲ型股骨颈骨折的生物力学特点,从而为此类骨
<正>"沪港通"开通的步伐越来越近,沪港交易所在9月份完成了三轮市场演习,相关的交易结算规则,税收事项以及跨境监管执法事宜正紧锣密鼓的进行。在"沪港通"即将上线之际,有媒
随着人们生活水平的不断提高,旅游已成为大众的一种需求.云南腾冲火山热海公司在这样的背景下应运而生,现公司与政府都在大力建设火山热海景区,扩大宣传,把热海建成国际知名
基于2011年中国家庭金融调查(CHFS)数据和中国城乡差异的视角,本文实证研究了社会网络对家庭创业收入的影响及其作用机制。研究结果表明,社会网络对城乡家庭创业收入具有显著