基于主动学习的半结构化数据清洗技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:foohay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展产生了海量数据,按照数据结构可以将这些数据划分为:高结构化数据、半结构化数据及以原始文本。其中结构化数据由于其具有完整的逻辑结构以及描述信息,能够被人们广泛利用;原始文本中包含的可用信息较少,并且需要经过复杂的计算才能够加以利用;半结构化数据是介于以上两者之间的一种数据形式,是互联网上存在极其广泛的数据类型,它可以看作是具有一定结构的数据,但是结构变化很大,因为各个数据之间存在复杂多变的区分标志,通常不能用固定的形式进行描述。所以,如何能够解析半结构化数据吸引了人们的目光,本文针对海量半结构化数据的清洗问题展开研究,识别其中有价值的信息,对半结构化数据加以利用。并将海量半结构化数据进行规格化,解析各个字段的属性,最终形成带有属性标注的二维结构化数据。这样的结构化数据能够为后续的分析使用带来极大的便利。为此,本文提出了以下三种解决海量半结构化数据清洗问题的方法:(1)提出了基于双缓冲的多类型文件并行解析方法,使用双缓冲消息队列以及线程池,提升了串行解析的速度问题,还解决了并行解析中多种格式解析速度不一致造成的任务堆积问题;(2)提出基于正则表达式的属性集识别方法,使用正则表达式识别数据中字段的属性,根据属性位置及数据整体结构识别属性全集,在此基础上提出基于行列统计的数据规格化算法,统计属性的数量及位置,将统计结果结果与属性全集比较,确定每一个字段所在的列,从而形成带有属性标注的结构化数据;(3)提出基于主动学习的方法提升属性识别准确率。将已经标注属性的结构化数据作为训练集,使用C4.5算法构建分类模型,使用基于主动学习的分类器优化方法进一步提高学习模型属性识别的准确率。本文提出了基于投票机制的不确定性采样算法,筛选出最能影响分类器准确率的样例交由转件标注,并更新分类模型,最终形成一个高效率、高准确率、高可用性的数据清洗研究方法,能够将已知数据的清洗成功率提升至95%以上。
其他文献
医学是与人类最为息息相关的科学之一。为了提高医学诊疗的能力与水平,医学信息化成为当今热点。医学信息系统的构建,必须要有医学知识库的支撑。而知识库构建的关键,在于知
随着信息技术与网络技术的高速发展,嵌入式系统技术已被广泛地应用于工业控制系统、智能家电、移动通信设备、汽车电子、数码娱乐、医疗仪器、智能仪器仪表等众多领域。  
随着人们对于软件质量的要求越来越高,软件测试在软件开发中的地位变得越来越重要,软件测试成为软件开发周期中必不可少的、耗时较多的一部分。现在很多面向客户端的软件很大
由大量网格模型所构建的三维世界在人们的现代生活中已经扮演着重要的角色,随着人们对三维世界越来越多需求,出现了大量的网格数据需要处理,对计算机的存储、计算、显示、传
在许多现实世界系统中,对象与对象之间的关系都能够建模成复杂网络进行分析。其中社团结构是复杂网络的重要属性,通常能够解释复杂网络系统的拓扑结构与功能模块。复杂网络社团检测旨在挖掘这种具有复杂网络结构的系统中的模块化结构,研究这种模块化结构有助于更好了解并挖掘网络系统的潜藏功能。近年来,多个领域的研究者们提出了众多社团挖掘算法,在不同学科领域上对复杂网络社团检测进行了深入研究,随着重叠社团结构这一概念
学位
本课题为基于深度学习的司法智能研究,任务主要以司法领域的自动量刑、相关法条预测和相似案例推荐为主。旨在以深度学习技术为主,解决司法领域智慧化问题,开展人工智能与法
无线传感器网络覆盖控制技术不仅反应了无线传感器网络对物理世界的监测能力,而且直接决定了网络采集外界信息的完整性和准确性。目前大多数的覆盖协议都是基于理想环境下提
较为准确的气温预报对农业生产,国防建设有着重要的意义。大气场中影响气温的因素很多,温度变化具有长期的不确定性,具有典型的混沌特征,其短期具有一定的可预测性。因此,预
目前我国城市交通拥挤现象日趋严重,为解决交通不畅问题,城市公路隧道日益增多,公路隧道的智能监控系统是隧道正常高效运营必要条件。虽然当前隧道监控的设备及监控方案己基
随着网络技术的日益发展,网络安全问题也变得日益严峻。异常行为检测作为一种积极主动的安全防护技术,在网络系统受到危害之前拦截和响应入侵,对网络主体进行纵深、多层次的