基于主题模型的Web服务发现方法研究

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:jc622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web服务作为一种自主而开放的应用实体,具有松散耦合、平台无关、互操作性强等特点,特别适合在Internet环境中发布和使用。随着互联网上Web服务数量的快速增长,如何从中快速有效地获取满足需求功能的Web服务,这是Web服务发现研究的内容。目前常见的Web服务发现方法主要有基于关键字的方法和基于语义的方法。其中基于关键字的服务发现不能理解用户语义信息,导致查全率不高,传统的基于语义服务发现方法由于限制太多,推广性不强,基于主题模型的Web服务发现是一种特殊的语义发现方法,它相比于传统的语义发现方法具有限制条件少,推广性强等优点。本文分析和研究了 Web服务发现及主题模型等相关技术,对Web服务文档特点、相似度计算方法以及聚类算法进行了深入研究。首先根据WSDL描述文档特点,结合国内外文本数据处理方法,对文档进行特征提取、去除停用词与标签、连接词分词、大小写字母转换、词干还原等,得到数据处理后的文档词汇集合。然后基于BTM对数据处理后的文档词汇集合进行主题建模,使用Gibbs采样对主题进行训练,针对主题个数不确定问题,通过计算主题结构相似度来确定主题数目,得到文档主题信息。接下来对文本相似度度量方法进行了研究,使用服务-主题向量与服务-特征词权重向量线性结合的方式来计算服务之间相似度。对聚类算法进行了研究,为了提高计算效率,使用基于最大距离法的k-means算法对Web服务进行聚类,得到Web服务簇集合。最后,对Web服务进行查询时,找到与查询最相关的Web服务簇,把簇中相关度高的Web服务作为发现的结果。本文实现了方法中的具体模块。最后利用测试集对该方法进行实验验证,实验结果表明,使用本文提出的方法进行Web服务发现具有较高的查准率。并且本文的研究对Web服务发现的相关处理过程具有借鉴意义。
其他文献
对等网络(P2P)是一种新型的网络结构,与传统的客户端/服务器(C/S)网络结构相比,有着去中心化控制、健壮性强、可扩展性好、负载平衡等优点。目前,P2P技术已应用到文件共享、即时通讯
随着互联网技术和电子商务的迅速发展,人类社会正快速步入“全民网购”时代。消费者对产品的评论内容包含了商品的体验,也为其他消费者、企业产品的反馈提供了重要的信息资源。如何高效地挖掘用户评论中消费者对产品以及相关方面所持有的观点成为情感挖掘分析领域的热点问题。但是,由于中文自然语言表述的多样性和复杂性,使用户评论的情感分析和研究变得更具有挑战性。目前,对文本情感分析的研究主要集中于细粒度的情感挖掘。它
学位
对存储系统能耗的优化研究不仅是日益增长的数据量的客观需求,也是对绿色存储、节能减排号召的响应。在不考虑能耗的情况下单方面提高系统的性能,会导致电能的浪费,然而离开性能
基于构件的软件开发方法(Component-Based Software Development)被视为解决“软件危机”的有效途径之一,构件库是这一方法的基础设施。但是单一构件库的规模不能满足软件开发人
在物联网中,由于物的信息具有多样化的描述形式且机器不能够完全理解这些物的信息(物联网的内在矛盾),进而很难有效地为普通用户提供语义服务。语义物联网能够消解物联网的内
近些年,随着遥感影像技术的高速发展,多源遥感影像融合也成为该领域研究的一大热点。遥感影像融合己成为影像处理领域中不可或缺的技术之一,并在诸如农业发展、军事应用、土地规划等领域起着重要应用。然而许多实际应用中,遥感影像的不同区域对空间细节信息与光谱特征的要求并不完全相同。而针对这种区域的不同需求,目前的遥感影像融合技术大都难以实现准确、及时、高效地分区域的影像融合。针对该问题,本文在国内外相关方法阅
视频标签是用来描述视频特征的短语,通常用于视频检索和视频推荐。现有视频标签的研究中存在如下的一些问题:现有视频标签大部分是描述视频总体特征,没有针对视频具体片断进行描
真实感是利用计算机虚拟现实技术进行模拟时所要追求的目标之一,通过物理模拟技术对场景中物体的运动进行模拟,使其符合真实世界的物理规律,可有效地提高虚拟场景的真实感。
随着科学技术的高度发展以及商业文化交流的高速膨胀,信息的传播越来越要求通过高科技手段来实现。数字多媒体终端是一种新兴的媒体概念,具有实时信息发布与联网广告发布的功能
增强现实技术作为虚拟现实的拓展技术,在最近十几年里已经得到了飞速发展,并在各个领域显现出强大的应用价值,广泛应用于工业、产品展示、医疗研究、军事、教育等领域,成为虚