基于Python的文本数据增强系统设计与实现

来源 :宁夏工程技术 | 被引量 : 0次 | 上传用户：yu8886882

【摘要】

：

针对少样本场景下样本不均衡性、数据量不足易导致模型过拟合的问题,采用自然语言EDA文本数据增强方法,设计了基于Python的文本数据增强系统。该系统利用Python+Flask框架实现了简单易操作的Web交互界面,总体架构由文本预处理、单文本增强和批量文本增强3个主要模块组成。对比分析增强前后的文本数据在枸杞虫害文本数据集的训练效果表明,该文本数据增强系统进行不同训练集规模数据增强后得到的枸杞虫害文本描述在4倍数据增强时分类效果最好,准确率达到了85.3%,与传统方法SR和VAEHD相比,EDA方法下的文

【作者】

：

韩会珍刘立波

【机构】

：

宁夏大学信息工程学院

【出处】

：

宁夏工程技术

【发表日期】

：

2021年2期

【关键词】

：

少样本文本数据增强 Web交互批量文本

【基金项目】

：

国家自然基金资助项目“生成对抗网络在图像文本跨模态检索中的研究”(61862050)。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

碳中和愿景下煤炭行业发展的危机与应对

碳中和愿景擘画了国家碳减排与气候治理的宏伟蓝图,但中国经济结构和能源结构决定了该目标实现的艰难.当前煤炭仍是我国能源安全的基石,并将在未来很长时间内一直发挥着巨大

期刊

碳达峰碳中和煤炭行业发展路线图命运共同体

基于标志气体统计学特征的煤自燃预警指标构建

采空区煤自燃是影响矿井安全生产的主要灾害之一,标志气体与煤温是煤自燃预警的关键参数,2者之间的数学模型及其统计学特征是构建煤自燃预警指标体系的基础。通过程序升温控制实验,获得了88组煤样气体体积分数随煤温的变化曲线,选择指数函数、多项式函数和Logistic回归函数对气体体积分数进行拟合,以R²,方差SSE和均方差MSE等参数为评价指标,确定了Logistic回归函数为最佳拟合函数;利用Logistic函数拟合标志气体的变化曲线,得到CO与C₂H_{4

期刊

煤自燃预警指标标志气体特征温度LOGISTIC回归}

基于Python的文本数据增强系统设计与实现

其他学术论文