文本挖掘及其在UDDI Registry智能检索中的应用

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ares_ding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web Services技术的不断成熟和发展,存储在UDDI Registry中的Web Service信息将会变得越来越庞大,如何从UDDI Registry浩如烟海的信息资源中为用户快速、方便、准确地检索出满足需求的Web Service,将变得十分重要。而传统的基于关键词匹配的检索技术已不能满足用户准确而全面定位信息的要求,因此,本文就以Web Service的文本描述信息为研究对象,提出了应用于UDDI Registry的智能信息检索技术。 对文档集进行特征化表示是文本挖掘和信息检索的前提和基础。本文用频繁序列模式挖掘算法挖掘出扩展短语,用扩展短语代表文档的特征项,并用概念秩算法和HITS算法挖掘出文档的主题概念,文档的特征就用主题概念加以表示。 智能检索的核心是概念检索和个性化服务。为了对文档进行概念检索,必须发现某个领域内的概念及其之间的关系,即构建出概念空间。本文通过文本挖掘相关技术挖掘用户访问文档信息,从而构建出用户私有的概念空间,核心算法是改进的K—Means文档聚类算法和FP-树频繁模式发现算法。由于概念空间是通过挖掘用户访问文档信息生成的,它也包含用户的个性化信息,在概念检索时候,也实现了个性化服务的目的。 概念检索是智能检索的具体体现。在概念检索过程中,为了帮助用户更加准确的表达自己的查询意图,本文采用Hopfield神经网络算法对用户的检索关键词集进行概念联想,将联想的结果供用户再次反馈。对用户反馈后的查询表示与文档特征表示,本文给出了概念匹配运算的方法,并讨论了检索结果如何组织的方法。 最后,为验证本文的研究结果,提出了一个将上述几个方面有机结合起来的智能检索系统模型,并给出了一个具体的检索验算。
其他文献
入侵检测系统(IDS)可以弥补防火墙的不足,为网络安全提供实时的入侵检测及采取响应的防护手段。一个成功的入侵检测系统,不仅可使系统管理员时刻了解网络系统(包括程序、文件和
目前许多先进过程控制策略和优化技术被应用到众多工业生产过程中,目的是通过提高产品质量及产量进而获得显著的经济效益。应用先进控制技术的难点在于在线产品质量的测量检测
网格是一个异构,动态的分布式系统,它的两大特征是资源共享和协同工作,信息服务是其核心部件之一。织女星(VEGA)网格提出了网格路由器的概念,它是一种完全分布式的信息服务部
图像融合技术经过二十多年的发展,目前已产生了许多融合方法及相应的融合理论,其中的小波方法及其各种变形是目前使用最多的方法.该文在深入分析了小波算法的理论基础之上,以
随着计算机网络技术的发展,互联网成为人们获取音乐资讯的一种越来越重要的媒体.这种趋势对音乐信息检索提出了更高的要求.现有的网上音乐检索局限于分类浏览和基于文字的查
近年来Agent以及MAS的研究成为分布式人工智能研究的一个热点。单Agent因个体所拥有的知识、能力的限制,因此对MAS的研究迅速发展。MAS是由多个Agent组成的集台,它能协调一组Ag
图像拼接的效果优劣主要取决于图像配准和图像融合两个步骤。目前图像融合算法可在一定程度上减小或消除配准误差和图像视差导致的错切、重影问题,但都没有考虑到无人机低空航
19世纪末20世纪初,在西方资本主义国家中的制造工业发生了一场革命性的变革:流水线作业,为西方经济的迅速发展打下了坚实的基础。同样,在20世纪末,随着网络技术的日趋成熟,一种新的
3N+1猜想作为世界性的数学难题,被广泛研究。从耶鲁大学教授到普通中学生,从理论数学家的纸上演算到计算机科学家的网上分布式验证,对此问题的研究可谓方兴未艾。密码学作为信息
CORBA和移动Agent都是当前热门的分布式对象技术。CORBA的优点在于其成熟性和应用的广泛性,移动Agent的优点在于其对环境的适应性和能自主迁移的特点。把移动Agent的特点加入