基于Word2Vec和LDA主题模型的Web服务聚类方法

来源 :中南大学学报(自然科学版) | 被引量 : 0次 | 上传用户:lindashu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类,使用从ProgrammableWeb收集的真实数据进行实验。研究结果表明:本文方法与TFIDF-K,LDA,WT-LDA和LDA-K方法相比,F分别提高419.74%,20.11%,15.60%和27.80%,利用扩充后的Web服务的描述文档进行聚类的方法能够有效提高Web服务聚类的效果。
其他文献
我国居民在平时的生产生活中,会不可避免的使用到房屋建筑。房屋建筑工程管理作为房屋建筑工程中的重要组成部分,对于其施工质量与施工进程均具有极其重要的作用,引起了我国
为了解决汽车门锁人工检测劳动强度大、效率和精度低的问题,设计了一套基于机器视觉的汽车门锁自动检测系统,该系统由硬件系统和软件系统组成。针对门锁表面对比度低、装配件多
近几十年来,我国的公路交通运输发展迅速,重载车辆越来越多,由此引起的桥梁结构的破坏现象也越来越严重。按以前的规范设计的在役桥梁并不能承受重载车辆的碾压,出现了明显的
该文提出一种基于汉语依存句法信息来构建维维吾尔语依存句法树库的方法。首先对维吾尔语进行形态分析,之后进行汉维词对齐、中文依存分析,然后根据词对齐信息以及汉语依存信
目的:了解江苏省涉药人员对药品不良反应(ADR)和药物安全性问题的认知情况,为药品安全监管提供参考。方法:采用多级分层随机抽样的方法,按单位集中被调查人员统一填写问卷。EpiData
近年来,我国水利方面的基础设施得到了广泛的建设,而在这建设的过程当中,由于施工环节一些问题的不当控制,对于水库的整体质量与安全性也造成了一定的隐患,从而也导致了水利
对北京市区泡桐丛枝病调查结果表明,2a以上树龄的泡桐树平均病株率为19.23%,病情指数达10.27,病害随树龄增大而加重。小片纯林受害最重,行道树次之,散植株最轻。周围高建筑物和稠密的植被可有效
自2007年美国次贷危机爆发以来,各国经济持续走低,国际贸易受到了极大的冲击,国际货运代理企业作为依托国际贸易而衍生出来的企业,自然也跟着受到了极大的影响。中小型货代企
背景和目的近年来由于生活方式、饮食结构等的改变,非酒精性脂肪肝(NAFLD)亦随着肥胖、2型糖尿病、血脂异常等代谢相关疾病的增加而越来越引起人们的重视。NAFLD在欧美等发达
随着互联网的蓬勃发展,与互联网相关的各类项目也随之大量出现。这些项目不仅数量很多,而且往往面临激烈的市场竞争。这些项目中最经常出现的问题就是项目不能按计划时间完成