基于Python的文本数据增强系统设计与实现

来源 :宁夏工程技术 | 被引量 : 0次 | 上传用户:yu8886882
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对少样本场景下样本不均衡性、数据量不足易导致模型过拟合的问题,采用自然语言EDA文本数据增强方法,设计了基于Python的文本数据增强系统。该系统利用Python+Flask框架实现了简单易操作的Web交互界面,总体架构由文本预处理、单文本增强和批量文本增强3个主要模块组成。对比分析增强前后的文本数据在枸杞虫害文本数据集的训练效果表明,该文本数据增强系统进行不同训练集规模数据增强后得到的枸杞虫害文本描述在4倍数据增强时分类效果最好,准确率达到了85.3%,与传统方法SR和VAEHD相比,EDA方法下的文
其他文献
碳中和愿景擘画了国家碳减排与气候治理的宏伟蓝图,但中国经济结构和能源结构决定了该目标实现的艰难.当前煤炭仍是我国能源安全的基石,并将在未来很长时间内一直发挥着巨大
采空区煤自燃是影响矿井安全生产的主要灾害之一,标志气体与煤温是煤自燃预警的关键参数,2者之间的数学模型及其统计学特征是构建煤自燃预警指标体系的基础。通过程序升温控制实验,获得了88组煤样气体体积分数随煤温的变化曲线,选择指数函数、多项式函数和Logistic回归函数对气体体积分数进行拟合,以R2,方差SSE和均方差MSE等参数为评价指标,确定了Logistic回归函数为最佳拟合函数;利用Logistic函数拟合标志气体的变化曲线,得到CO与C2H4