基于机器学习的政府采购电商大数据标定与评价

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:JGTM2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
政府采购商城是各地政府在互联网上的采购平台,每天要处理大量供货电商数据。面对数据来源各异、品类众多且书写格式无统一规范等问题,传统处理手段不仅费时费力,而且处理结果不理想。本文基于机器学习开展政府采购电商大数据的获取、标定与评价研究,实现政采数据快速获取、同一商品准确标定、利用同一商品历史价格有效预测并评价供货商新报价等,推进机器学习在政府电子采购领域的应用,协助政府智能监控商品质量与价格,减少人为因素干扰及管理成本,降低采购交易价格,提高采购效率增强采购及时性,确保政府采购商城、供货电商以及采购人三方合作共赢。本文开展的研究工作如下:首先,分析政府采购电商大数据的多样性来源与差异化特点,设计并实现数据采集程序来定向快速获取各政采商城网页上的电商数据。程序获取过程中能避免政采网页间差异性、能自动过滤重复网页、能自动筛选出各类商品,并以品类名称分类存储所获取的电商数据,方便后续通过多种不同形式查询调用所保存数据。实验结果表明,每天能够实时采集更新政府采购电商有效数据数量达20万条以上,为后续商品同一性标定以及报价预测及合理性评价提供数据支持。然后,提出一种基于长短时记忆网络(Long Short Term Memory,LSTM)的商品同一性标定模型。该模型由分词、重要性排序、相似度计算等三个子模型串联组成。分词子模型对电商大数据预处理,获得有区分度的关键词序列;LSTM重要性排序子模型筛选最具表征商品信息的重要关键词序列;LSTM相似度计算子模型在给定大数据中准确标定出同一种商品。另外还引入二分查找、全局词频统计词表征(Global Vectors for Word Representation,Glove)词向量化、词序列语义校验技术,分别用于提高标定速度、训练样本利用率与高标定泛化能力。实验结果表明,在处理不同品类政采电商大数据时,对易混淆样本同一性标定准确率高。最后,对被标定为同一种商品的报价进行可视化等预处理,对报价采用三种方式聚类分析。聚类结果表明,基于密度带有噪声聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)比K-means、层次聚类更适用于去除价格奇点,其次基于扩展迪基-福勒(Augment Dickey-Fuller,ADF)检验将报价分为常数项、平稳以及非平稳时间序列。然后针对各序列分别采用差分自回归移动平均(Autoregressive Integrated Moving Average,ARIMA)模型、支持向量机(Support Vector Machine,SVM)、高斯过程(Gaussian Process,GP)模型以及高斯过程混合(Gaussian Process Mixture,GPM)模型进行报价预测及合理性评价。实验结果表明,GP模型与GPM模型能输出报价预测置信区间,使预测及评价结果更可信。另外GPM模型预测精度总体上要高于其它三种模型,是一种商品报价预测及评价的有效模型。
其他文献
CAI课件可以有效地加强体育教学的直观性,但由于许多因素的限制,目前在技术教学课中应用课件并不十分便利.为此,作者研制了挺身式跳远技术教学CAI课件并应用于课外辅导,显著
龙舟竞渡,在我国历时几千年而延续不断,并在古代已经传向了邻近各国。如今,特别是改革开放以来,龙舟竞渡更以前所未有的速度,推向世界各地,成为世界体育文化的一个组成部分。
随着高等教育改革的不断深入,不断优化整合专业,各高校纷纷设立学院制。本文从绩效管理的视角针对高校学院制改革呈现出的“重科研轻教学”问题进行分析和研究。探讨学院制模
一、矿区地质概况 矿区位于北山地槽褶皱带马莲井复向斜中。区域出露最老的地层为晚元古界星星峡组。矿区出露的地层为上泥盆统金窝子组第一段至第三段。岩性主要为砂砾岩及
本文介绍了通过风沙机理和铁路沙害防治研究及工程实践所得出的关于中国铁路沙害防治的一些新认识、新观点,除具有学术意义外,并具有一定的实用价值。
因不同型号衬砌机的布料能力、行进速度、振捣方式不同,衬砌板质量缺陷与当地环境因素(温度、湿度、风速等)、混凝土初凝时间、建基面处理方式等有密切的关系,所以在大规模机械化
利用SAP2000有限元软件,对设置不同刚度水平加强层的框架-核心筒结构进行地震作用下反应谱分析,研究水平加强层设置对结构内力、位移的影响规律,以及结构加强层相邻层的内力
数学建模是创造型的思维活动、是培养创新型人才的载体,它不仅能带动其它学科素养的发展,而且能够培养学生解决问题、应对社会挑战的能力.随着我国数学课程的改革的发展,数学
目的:探讨NLR家族含CARD结构蛋白3(NLR family CARD-containing 3,NLRC3)对肝缺血再灌注体外模型RAW264.7细胞缺氧/复氧(hypoxia/reoxygenation,H/R)炎性反应的影响,明确NLRC3减轻RAW264.7细胞H/R炎性反应的具体分子机制。方法:建立小鼠肝脏缺血/再灌注(ischemia/reperfusion,I/R)模型,采用Wes
耕地的变化是区域土地利用变化的核心,其变化和流向反映了社会经济的基本态势.利用鄂南丘陵山区咸安区的统计资料对近50年来的耕地数量变化的时间特征进行了研究,并应用相关