论文部分内容阅读
针对少样本场景下样本不均衡性、数据量不足易导致模型过拟合的问题,采用自然语言EDA文本数据增强方法,设计了基于Python的文本数据增强系统。该系统利用Python+Flask框架实现了简单易操作的Web交互界面,总体架构由文本预处理、单文本增强和批量文本增强3个主要模块组成。对比分析增强前后的文本数据在枸杞虫害文本数据集的训练效果表明,该文本数据增强系统进行不同训练集规模数据增强后得到的枸杞虫害文本描述在4倍数据增强时分类效果最好,准确率达到了85.3%,与传统方法SR和VAEHD相比,EDA方法下的文