面向Deep Web响应页面的模式识别的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:wujielele
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,Web上的信息量呈爆炸性增长。按照所蕴含信息深度的不同,可以将Web划分为Surface Web和Deep Web两大类。其中,Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要采用动态网页技术访问的资源集合。一些统计数据表明:Deep Web蕴含的信息量、对Deep Web的访问量、增长速度等都远远高于Surface Web。因此,随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段,能够自动地获取蕴含在Deep Web中丰富的数据资源并对其进行大规模集成显得尤为重要。当今查询Web信息的主要手段是借助搜索引擎,而传统搜索引擎只能爬取到SurfaceWeb信息,对于大量由Deep Web产生的动态数据不是索引的数据不全就是过时。因而搜索引擎对Deep Web的支持越来越成为广大用户的需求。而由于Deep Web的自身特点,又使实现这一需求在技术上存在很大的难度。本文从实际出发,分析了Deep Web查询接口及其响应页面的特点,基于Deep Web自身的特点提出了一种基于Deep Web搜索引擎架构,描述了其架构设计,并且详细叙述了在预处理子系统中提出的两种用于抽取相应模式的算法,即基于询问式和基于输入接口式的输入模式抽取算法。实验表明,我们提出的两种方法在不同的情况下有很好的识别率,结合这两种算法可以很好的解决Deep Web输入接口的识别问题。为建立基于Deep Web的搜索引擎提供理论上的支持。
其他文献
本文以华中师范大学虚拟校园漫游系统的设计为研究对象,对语音识别技术若干问题进行了研究,以MATLAB和VC++为工具,设计并实现了孤立词、特定人、小词汇量语音识别系统。工作主要
随着半导体制造工艺的提高,芯片集成的晶体管数量的增加,计算机系统更易受到射线、高能量粒子(电子、中子、质子等)的影响,从而增加软错误的出现概率。软错误使得处理器的可
随着多媒体技术和网络技术的发展,流媒体正在成为推动未来宽带应用的主动力。但在现有条件下,流媒体对带宽资源要求高且服务时间长,在传统的C/S模式下服务器很容易成为系统的
学位
在对基于模糊聚类分析的图象分割方法的现状和存在问题的深入分析和研究的基础上,提出了一套在边缘信息指导下的模糊聚类的图象分割方法EFCM(Edge-based Fuzzy C-means Clust
近年来,游戏的图形质量已发展到近乎极致的地步,人工智能(AI)已经成为决定一款游戏以及游戏开发工作室命运的重要因素。下一代的3D游戏不仅会有优秀的视觉效果,更会像人一样
网格计算的概念是随着高性能计算的应用需求发展起来的,主要是从学术角度出发考虑广域网内计算机资源的共享,从而达到资源的最大化利用。随着互联网近年来的高速发展,网格中的信
随着信息化的不断发展,信息系统在人们的生产和生活中发挥着越来越重要的作用。因此信息系统和其所承载的信息的安全直接影响着人们正常的生产和生活,以及社会的持续稳定发展
排课是研究生部教务管理中一项关键而又繁重的任务。为了提高我校研究生部教务管理的信息化水平与工作效率,减轻研究生部工作人员的劳动强度,科学合理地调度师资与教室资源,
伴随着科学技术的高速发展,高科技医疗影像设备的不断涌现为医疗现代化提供了越来越多的帮助。在X射线断层扫描(CT),核磁共振(MR)等人体解剖结构成像技术日趋完善的同时,功能