论文部分内容阅读
Web 2.0时代,Web服务数量飞速增长,基于Web集成的Mashup在兴起之后,也随之急剧增加。Mashup技术为更快速、更方便地开发新的Web服务提供了可能,但服务数量的快速增长使Mashup服务的开发人员需要耗费大量时间精力来对已有的服务进行管理。面对大量的服务数据,如何通过机器学习的技术对其进行适当的分析和处理,完善对大量Mashup服务的管理效率,是当下服务计算领域的研究热门。本文基于对服务标签推荐方法的调研之上,在2016和2018年公开的两个数据集上,对比了基于监督学习的Mashup服务标签推荐方法(SL-MSTR)和基于无监督学习(服务聚类)的Mashup服务标签推荐方法(SC-MSTR)。两组数据的实验结果都表明无监督的SC-MSTR方法比有监督的SL-MSTR方法的标签推荐质量高,同时当候选标签数目变化时无监督SC-MSTR方法也始终优于有监督的SL-MSTR方法。通过对实验结果的进一步分析,发现在进行服务标签推荐时,SL-MSTR方法依赖当前Mashup服务与候选标签之间的相似度,SC-MSTR方法依赖当前Mashup服务与已有真实标签集的Mashup服务的相似度。由于后者是同类特征的相似度衡量,推荐结果更加准确。本文考虑到SL-MSTR方法和SC-MSTR方法从原理上具有较大差异,对两者的结果进行集成,以期获得推荐质量的进一步优化。实验表明,集成的Mashup服务标签推荐融合方法(FusionMSTR)使Mashup服务标签推荐的质量得到了较大提升。本文的主要工作有:(1)研究和分析常见的服务聚类方法,引入监督学习的思想,在传统的服务聚类方法的基础上,得到了基于伪标记的Mashup服务半监督聚类(S3C_PLMSC)方法,优化了传统的服务聚类方法。在公开的Mashup服务数据集上的实验结果表明本文提出的S3C_PL-MSC方法在8个指标上高于传统服务聚类方法。(2)分析Mashup服务的数据特点,研究各种传统的Mashup服务标签推荐(T-MSTR)方法后,本文将Mashup服务标签推荐问题转换成根据Mashup服务自身信息对候选标签进行偏好排序的问题,据此提了出SL-MSTR方法。在2个公开的Mashup服务数据集上的实验结果表明,本文提出的SL-MSTR方法在Precision、Recall和F1上增强了传统Mashup服务标签推荐方法的性能。(3)设计实现了基于Mashup服务聚类的标签推荐(SC-MSTR)方法。采用投票机制,将SC-MSTR方法与SL-MSTR方法进行融合,获得Fusion-MSTR方法。在Mashup服务数据集上的实验结果表明,Fusion-MSTR方法对Mashup服务标签推荐有进一步的提升效果。总体上看,本文提出的基于伪标记的Mashup服务半监督聚类方法有效提升了传统Mashup服务聚类方法。基于监督学习的Mashup服务标签推荐方法改善了服务标签的推荐效果。同时,将服务聚类加入到服务标签推荐中,再使用投票机制融合SC-MSTR和SL-MSTR,进一步提升了服务标签推荐的效果。