论文部分内容阅读
随着物联网技术的发展,有越来越多的设备开始以公开可访问的形式接入网络,海量物联网设备的管理问题正变得愈发棘手。物联网设备搜索是解决以上问题的有效手段。设备搜索旨在根据物联网设备使用者的需求,从海量设备中快速、准确地检索出具有特定功能或处于特定状态的设备,实现设备功能、状态与用户需求的匹配。然而,由于物联网设备是海量、异构、动态的,物联网设备的搜索技术面临多种挑战,这些挑战集中体现在设备描述、设备接入、设备索引层面:在设备描述层面,现有物联网设备具有典型的短文本特征,传统信息检索领域的方法难以奏效;在设备接入层面,现有搜索技术中的数据同步手段无法对具有周期工作和低功耗特性的物联网设备的内容信息进行有效同步;在设备索引层面,现有索引技术难以有效融合物联网设备的所有关联信息。针对这些挑战,本文开展了以下三方面研究: 1.针对物联网设备所面临的描述缺失问题,本文以物联网设备捕获的实时数据序列的特征为分类依据,分别对于物联网前端无中心注册服务器的设备和已经汇集到设备搜索引擎后台的设备的描述补全问题进行了研究,对应提出了两种面向描述缺失设备的文本描述补全方法。(1)针对物联网前端无中心注册服务器的设备,利用不同感知设备采集到的数据数值特性之间的关系,设备可通过与其他设备的协商获得组别信息,进而推断出自身的文本描述。对比其他方法,该方法具有两方面优势:首先,方法通过设备之间的自主通讯实现,有利于物联网前端设备的快速部署;其次,本方法使用度量学习和分布式聚类方法相结合的手段,在不降低查全率的同时,有效提高了查准率。相较无度量学习的方法,方法的查准率提高了20.4%。(2)针对后台海量设备,提出了一种基于分类的描述补全方法和一种由设备先验信息辅助的分类结果优化方法。方法使用采集到的设备数据序列的数值特征作为输入,通过人工标注大量物联网文本描述标签,以根据分类结果为设备生成文本描述。分类方法使用随机森林决策树模型作为设备的数据序列分类器。分类结果优化方法针对单纯使用数值特征进行分类时会引入的少量明显不符合设备群组特性的错误的现象,提出了一种基于最小费用最大流的设备分类结果优化模型,以修正以上错误。结果优化方法可有效提高后台海量设备的文本描述的分类精度,进而生成更为精确、充足的文本描述。该分类方法可在40个分类的真实物联网数据集中实现66%的文本补全准确度,而分类优化方法贡献了3%的精度提升。 2.针对物联网爬虫同步低功耗设备内容时存在的接入失败问题,本文使用优化模型为设备获取数据和设备爬虫同步设备内容的过程进行了建模,进而提出了一种面向周期性工作的物联网设备的内容同步策略。物联网设备多具有低功耗特性,可能会存在诸如休眠和访问频率受限等现象,这些现象会直接影响设备访问的成功率,物联网设备搜索引擎存在的频繁的设备访问失败会导致用户通过搜索获得的设备的内容信息是滞后的,进而影响物联网设备搜索结果的实时性。本文将物联网设备的休眠现象建模成为了优化问题,以爬虫更新设备状态的时延作为优化目标,设计了一种迭代求解方案。对于迭代求解方案中的子步骤,分别提出了一种基于动态规划的和一种基于贪婪规则的调度时机选择方法。这两种方法分别侧重于调度精度和计算效率。通过以上两种方法,可获得适用于不同物联网场景、满足不同调度需求的设备爬虫调度方案。最后,方法使用了仿真实验说明了以上方法输出调度方案的性能,以及优化方法子步骤中动态规划和贪心规则两种方法的性能。实验表明,方法可有效降低传统爬虫同步策略的高同步时延的问题。此外,本文也使用了Xively物联网真实数据集作为爬虫调度策略的用例,以验证该方法的实用性。在该数据集上,相较单一周期访问策略,该方法可避免40%以上的无效访问。 3.针对物联网设备文本描述与元数据融合时所面临的索引问题,本文使用了可融合物联网元数据的主题模型,对设备文本描述的语义特征进行了抽取以作为索引内容,进而提出了一套基于设备描述关键词与文本主题的混合索引方法与对应打分机制。基于关键词的打分机制通过统计每个文档中的词频和词的新颖程度,为每个文档计算其与不同查询的相关性的打分。在基于主题向量的打分机制使用了可有效地融合物联网设备的元数据特征的DMR模型作为主题提取方法,通过主题向量计算文本描述与用户查询之间的语义距离。本文使用了一种加权机制将以上两种打分的结果进行了融合。为了评价不同打分方法的质量,本文根据物联网设备的数据特点设计了一种查询相关性的度量方法。实验表明,该方法较单纯使用关键字进行物联网设备检索,可有效提升搜索的召回率,并使其打分排名的相关性提高了19%。 本文将以上三方面的研究进行了整合,形成了一套完整可用的物联网设备搜索原型系统。该系统可根据用户输入的设备关键词进行查询操作,在对用户的查询输入进行解析后,以设备文本描述信息和元数据信息的列表或设备二维可视化关系图两种方式进行结果展示。