论文部分内容阅读
物联网呈现异构节点海量化、汇聚协议多样化、数据解析差异化的特点,多样化汇聚协议的适配与数据解析是大规模物联网数据汇聚的核心与关键。针对数据格式已知的汇聚协议,如MQTT、HTTP、CoAP、STOMP、AMQP等,编写协议适配软件能够有效的实现数据解析。该方式对未知协议的扩展性差,无法实现未知类型数据的解析。本文聚焦的是未知类型传感器数据自动解析的问题,针对类型固定和动态变化两种场景设计对应的解析方法。具体工作如下:针对类型未知但固定的传感器数据解析的问题,基于确定有限自动机(DFA)的思想,提出一种适用于传感器数据的扫描和词法分析方法,实现对类型未知的传感器数据有效关键词的提取,屏蔽了异构数据的格式封装差异,保障了未知类型的异构传感器数据词法单元的精确分割;设计一种状态转换数据解析模型,提出基于状态转换矩阵的传感器数据语法解析方法和海量数据的配套栈处理机制,对所扫描出的Token流与其对应的属性做出关系推理。实验表明,该方法具有快速高效的优点,平均准确率达到99.5%,能够实现对格式固定的未知类型异构传感器数据的精准自动解析。针对类型未知且动态变化的传感器数据解析的问题,基于无监督学习的思想,采用K-Means聚类方法提出一种数据解析模板构造模型,设计基于K-Means聚类的数据分类方法、准确度检验机制和数据模板自修正方法,实现对海量传感器数据的模板构造,保障了物联网平台对数据多样化汇聚的兼容性;提出一种可用信息抽取解析模型,设计规则槽挖掘机制和信息抽取方法,通过多点修正分步回溯,实现对海量传感器数据的自动解析和脏数据清洗。实验表明,该方法结果类别群的平均数据相似度ADS达到0.93,能够实现解析过程与数据类型解耦,具有动态适配性。基于自主研发的微物联共享平台,实现模式化解析系统,并进行功能的测试,两种方法的平均解析结果准确度均可达到98%,验证了本文所提出方法的有效性;对方法的实时性能和系统的整体性能进行测试,在10k的数据量下,对固定类型的数据解析可以达到260ms的低耗时,且在数据类型动态变化的场景下,处理时间保持在750ms至800ms之间,实现了海量异构传感器数据准确高效的自动解析。