论文部分内容阅读
随着服务计算和云计算的发展,各种各样的网络服务涌现,极大地促进了面向服务的网络应用及软件系统构造。传统的Web服务是基于SOAP协议、用WSDL文档进行描述的,它广泛应用于互联网的各个领域,但也暴露出不少问题,如技术体系过于复杂、可扩展性较差等缺点。而轻量级的基于RESTful的Mashup服务,由不同功能的Web API进行组合而成,可以开发出满足个性需求的软件应用。然而,相比于传统的Web服务,Mashup服务没有规范的形式化描述模型,从而也就加大了其服务查找与发现的难度。Programmable Web网站作为一个流行的在线社区,允许用户发布Mashup,并且对Mashup进行标注、排序,同时它也存在服务人工标注的随意性、服务分类不太合理、服务搜索及发现的效率与精确度不高等问题。因此,Web服务的发现和挖掘便成为一个热门研究方向,而合理有效地利用标签信息进行服务聚类,从而改进Web服务发现的性能得到越来越多学者的关注与研究。本文围绕基于标签推荐和服务聚类开展了如下工作:1、提出了一种新颖的融合K-Means与Agnes的Mashup服务聚类方法MSCA。该方法首先对Mashup服务中的Tag标签进行扩充和排序;其次,计算Mashup服务的集成相似性;接着,应用K-Means算法对Mashup服务相似度矩阵进行聚类,找到相似度较高的Mashup服务将其划分到N个原子簇中,再利用Agnes算法对N个原子簇进行层次聚类,与以往方法相比,服务聚类效果及服务发现的精度有较大提高。2、提出了基于LDA标签辅助的Mashup服务聚类方法MT-LDA,该方法首先对数据进行预处理,利用LDA为语料库建模,运用Gibbs抽样方法进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布计算文本之间的相似度,最后根据文本相似度矩阵进行Mashup服务聚类,并评估聚类效果。通过对比实验表明,引入LDA方法引出资源的隐含主题,同时利用标签信息进行服务聚类,能够显著地提高服务聚类的性能。