大规模流数据的动态钻井采样方法的研究

被引量 : 0次 | 上传用户:longjayliu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据以实时和高速变化为特点,全面捕捉其特征分布挑战颇大。采样,作为大数据分析的核心方法,有助于简化数据集,降低计算成本,避免过拟合,并提高数据解释性。然而,现有流数据采样方法往往无法保留大量离散值的信息和价值,从而难以全面收集原始流数据集的特征值。此外,如果样本集含有大量离散值,其用于评估原始流数据特征分布的准确性将降低。本研究针对这些问题提出了以下主要贡献:首先,针对现有流数据采样方法在捕捉离散值信息和价值方面的不足,以及其无法全面收集流数据特征值的问题,本研究基于有限访问下的流数据钻井采样方法(SDLSA)提出了一种流数据动态钻井采样方法(SDDS)。该方法以"井"为分析单位,动态调整其大小和位置,精确预测离散值的位置和范围。同时,引入采样价值评估模型(SVEM)从稀疏、密集和整体三个角度全面评估SDDS采样方法的有效性。实验结果显示,通过SDDS采样方法得到的样本集在SVEM的稀疏和密集方面的评估准确率均超过90%,优于SDLSA采样方法。但在样本集包含大量离散值时,评估原始流数据集的整体特征分布的准确性较低。其次,为解决样本集包含大量离散值时,评估原始流数据整体特征分布准确性较低的问题,本研究提出了一种流数据自适应钻井采样方法(SDADS)。该方法基于SDDS采样方法,自适应调整井中各类的采样率,在采样过程中缓存当前井内所有数据,然后对井中的数据进行自适应重采样,以确保采样前后数据分布的一致性。同时,引入采样整体价值评估模型(SOVM)来验证SDADS算法的有效性。实验结果显示,SDADS采样方法得到的样本集在SOVM评估中的准确率显著优于SDDS采样方法,准确率提升约10%。最后,本研究设计并实现了一个流数据动态采样评估系统。该系统基于上述采样方法和评估模型,实现了对大规模流数据的实时动态采样和评估。该系统主要功能包括动态采样参数配置、实时显示动态采样数据、评估动态采样价值和样本库管理等。以上功能可清晰展示大规模流数据的实时动态采样和价值评估结果,帮助用户了解大规模流数据的特征分布。总的来说,本研究针对流数据采样方法易丢失大量有价值离散值,以及样本集难以全面表示原始流数据特征分布的问题,提出了一种大规模流数据的动态钻井采样方法及评估模型,以及一种大规模流数据的自适应采样方法及评估模型。此外,设计并实现了流数据动态采样评估系统,通过仿真模拟验证了本研究提出的流数据采样方法和评估模型的有效性。本研究提出的方法和模型对大数据分析领域有重要的理论和应用价值。
其他文献
学位
我国桃种植面积与总产量居世界第一,桃对我国农业经济发展有着不可替代的作用。近年来由于桃农片面追求产量,桃生产中过量施用氮肥,缺少有机肥料等养分管理问题日益突出,导致桃园土壤肥力下降,桃果产量和品质难以提高。研究表明,施用有机肥或生物有机肥可以改良果园土壤,培肥地力,促进桃树根系的生长,有机肥中的有机碳还可以提高土壤微生物活性,从而促进桃树生长,提高果实的产量与品质。本研究以江苏新沂的“洋夏妃”水蜜
学位
学位
随着汽车数量的增多,在道路上很容易发生交通事故,并对人民的生命安全带来重大影响,不可避免的也会造成很多的经济损失。经统计,带来交通事故的很大一部分原因是驾驶员的不当操作,例如驾驶员在驾驶的时候玩手机、打电话、喝水、双手脱离方向盘等行为,都是交通事故频发的原因。为了保障人民的生命财产安全,危险驾驶检测算法的研究变得越来越重要。通过对研究目标的分析,本文利用改进YOLOv5s算法对驾驶员左手玩手机、右
学位
目的:探讨MEG3 rs10132552和rs7158663单核苷酸多态性(single nucleotide polymorphism, SNP)与不同宫颈病变患者发病风险的关系。方法:2018年11月到2020年11月,收集328例宫颈病变患者的外周静脉血及相关临床信息为病例,包括210例宫颈上皮内病变(cervical intraepithelial neoplasia, CIN)患者和11
期刊
目的 比较环泊酚和丙泊酚用于腹腔镜胆囊切除术患者全麻诱导与维持的效果。方法 选择择期行腹腔镜胆囊切除术患者80例,男32例,女48例,年龄18~64岁,BMI 18~30 kg/m~2,ASAⅠ或Ⅱ级。采用随机数字表法将患者分为两组:环泊酚组和丙泊酚组,每组40例。环泊酚组、丙泊酚组分别静脉给予环泊酚0.4 mg/kg、丙泊酚2 mg/kg,两组均依次给予舒芬太尼0.5μg/kg及罗库溴铵0.6
期刊
“阳化气,阴成形”概括了阴与阳的功能和特性:阳推动人体无形的功能活动,阴生成人体有形的形质。由此可阐释人体生理、病理情况及宏观、微观生命活动,即可应用“阳化气,阴成形”从中医学角度理解解剖定位的器官、组织、细胞的结构与功能。支持细胞与生精细胞共同存在于生精上皮,二者在结构和功能上具有紧密联系。支持细胞发挥无形的支持功能,归属于“阳化气”;生精细胞则通过精子发生形成有形的精子,归属于“阴成形”。支持
期刊
<正>"哎,老鼠!"彦青一下子从床上跳下来,脱下鞋就甩过去。结果,他准头不大好,没打到老鼠,反而把桌子上的油灯灯座给打中了。灯座咕噜噜摔在地上,掉出两颗装饰用的小圆球。要不是其中一颗小球上油汪汪的陈年污垢被摔得剥落,露出里面翠绿的质地,显出几分不凡来,还真让人以为这是两颗平常的小石球呢。彦青连擦带洗,终于还原出小球的本来面目。它们绿得像一汪水,在太阳下依稀能看见里面似乎有水波在流动,就像……眼晴。
期刊
目的:分析原发性胰腺癌的中医证型与增强CT影像表现的相关性。方法:70例原发性胰腺癌患者均接受增强CT检查,同时收集患者的临床生化指标,并对不同证型患者的增强CT影像表现统计分析,探讨不同生化指标及增强CT影像表现与中医证型的相关性。结果:70例胰腺癌患者包括26例气滞血瘀型、21例肝胆湿热型及23例脾肾虚损型,3种证型对应的肿瘤大小差异存在统计学意义[(4.10±0.78)cm vs (3.70
期刊
研究背景:进入21世纪,数字化浪潮席卷全球,数据对管理决策、产业升级以及经济持续稳定增长的影响与日俱增,产业数字化和数字产业化已然成为经济社会转型的必然方向。在国家大力发展数字经济倡导数据要素赋能实体经济的战略背景下,数据作为关键生产要素对加快数字经济与实体经济深度融合具有重要意义。《“十四五”数字经济发展规划》中提出,充分释放数据要素价值,激活数据要素潜能,即重点关注数据要素的价值实现问题。数据
学位