人工参与的迭代式数据清洗方法研究

来源 :大数据 | 被引量 : 0次 | 上传用户:ahqmchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据采集技术的进步导致了数据集规模的飞速上涨,由于数据的大规模和高复杂性引起了严重的数据质量问题,数据清洗是数据活动中必要且重要的环节。为了在保证清洗准确率的情况下有效地降低人工标注成本,提出了一种人工参与的迭代式的数据清洗方法(IDCHI)。该方法在检测模块中提出了数据选择优化方法,使分类器在初始阶段就拥有较高的准确度;并进一步提出了待人工标注数据选择方法,有效地降低人工标注的数据量。实验结果表明该方法可有效且高效地清洗错误数据。
其他文献
背景与目的:认知功能障碍(CI)是帕金森病(PD)常见的非运动症状,早期预测认知正常的PD患者是否以及何时发生CI对于疾病的预后至关重要。本研究旨在联合多方面的基线信息建立不同的预测模型,用于个体化评估PD患者进展为CI的风险以及进展时间。方法:从PPMI数据库中纳入了108例PD患者,在5年的随访过程中有58例进展为CI,50例仍稳定在正常认知范围。首先,采用最小绝对收缩和选择算子(LASSO)
学位
细胞焦亡被定义为一种以成孔效应蛋白介导的炎性程序性细胞死亡方式。研究发现,细胞焦亡与肿瘤的发生、侵袭及预后有关。肾乳头状细胞癌(KIRP)是一种泌尿系统常见的肿瘤,文献提示可能与细胞焦亡存在一定的关联,但具体作用不清楚。研究中,我们利用生物信息的方法针对52个与焦亡相关基因(PRGs)在28个正常肾脏组织和249个KIRP组织中的表达情况进行了综合分析,发现20个差异表达基因。进一步进行一致性聚类
学位
研究背景:随着加速康复外科理念及电视胸腔镜手术的发展,胸腔镜手术后不留置胸腔引流管的概念被提出,本系统评价和荟萃分析的目的是确定胸腔镜下肺楔形切除术后不留置胸腔引流管与常规留置胸腔引流管相比,是否具有安全性和有益性。方法:全面检索Pub Med数据库、Web of Science数据库、Cochrane Library数据库、Ovid数据库、万方医学数据库、CNKI数据库从成立到2021年12月2
学位
目的:建立一个与细胞焦亡相关的预后基因模型来预测肾透明细胞癌患者的生存状态。方法:从TCGA数据库下载肾透明细胞癌患者的基因表达谱和临床信息,通过Lasso Cox回归分析构建肾透明细胞癌预后风险评估模型,使用Kaplan-Meier生存曲线和ROC曲线验证预后模型的预测效果,再基于中位风险评分将肾透明细胞癌患者分为高风险组和低风险组,对两组患者进行GO、KEGG及单样本基因集富集分析。结果:我们
学位
背景:手术治疗在小于等于2cm的无功能性胰腺神经内分泌肿瘤(Nonfunctionl pancreatic neuroendocrine tumors equal or smaller than 2 cm,NF-PNETs≤2cm)患者中的作用仍存在争议。本次研究的目的是论证手术对NF-PNETs≤2cm患者的预后影响,并基于人群的队列研究,构建预测NF-PNETs≤2cm患者总生存率(Overa
学位
目的通过荟萃分析,研究含雷替曲塞的经动脉化疗栓塞术(TACE)方案治疗中晚期原发性肝癌的疗效和安全性。方法检索Pub Med、Cochrane Library、Embase、中国知网、万方等数据库,比较分析含雷替曲塞的TACE与应用其它抗癌药物的TACE治疗中晚期原发性肝癌的随机对照研究文献,并提取相关数据进行分析。采用荟萃分析的方法对含雷替曲塞TACE组和对照组(不含雷替曲塞组)的客观有效率(o
学位
目的:分析术前淋巴细胞绝对数与C-反应蛋白比值(Lymphocyte to C-reactive protein ratio,LCR)在Ⅱ/Ⅲ期胃癌中的临床价值。方法:纳入2013年1月至2016年12月于我院接受胃癌根治性切除术的Ⅱ/Ⅲ期胃癌患者116例。收集患者术前的中性粒细胞数目、血小板数目、淋巴细胞绝对数、单核细胞数目、C-反应蛋白(C-reactive protein,CRP)、癌胚抗原
学位
目的:目前内镜下乳头括约肌大球囊扩张术(EPLBD)已越来越多地被用于治疗胆总管结石,虽然多与内镜下乳头括约肌切开术(EST)联合使用,但单独的EPLBD不仅能减少对括约肌的损伤,同时更易于操作且节约了成本。最近的研究发现,单独的EPLBD与EST有着相似的疗效及安全性,并且可以减少机械碎石使用率和出血发生率。因此本文通过对比单独的EPLBD与EST,来评价单独的EPLBD治疗胆总管结石的疗效和安
学位
目的:皮质类固醇注射是治疗原发性冻结肩(Primary Frozen Shoulder,PFS)的常用保守治疗方法,但关于不同注射部位是否具有不同疗效仍存在争议。其中肩袖间隙(rotator interval,RI)在冻结肩的发生发展过程中起着关键作用,研究证明RI注射比传统盂肱关节(intra-articular,IA)注射更优。然而通过检索,我们发现对于RI、IA联合肩峰下滑囊(subacro
学位
目的:肝细胞癌(HCC)是一种具有高度恶性、复发性和耐药性的肿瘤,肝细胞内基因表达异常与HCC的发生密切相关,本研究的目的是筛选肝脏肿瘤组织和正常肝脏组织之间的差异表达基因(Differentially expressed genes,DEGs)并寻找枢纽基因,为肝癌的诊断及治疗提供相关潜在靶点。方法:从高通量基因表达数据库(Gene Expression Omnibus,GEO)中分别下载基因表
学位