异构就业数据集成服务的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:xinxinzhang2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,互联网已经成为了世界上最大、最丰富的数据源,其中蕴含着大量的就业信息资源。这些资源不仅包含传统数据库这类的结构化资源,还包括Web上广泛应用的半结构化资源。但是由于这些数据源广泛的异构性和分布性,人们想要获取一条需要的就业信息就变得十分困难。为了充分利用这些资源,方便人们的查询,就需要将这些结构化和半结构化的数据在统一的平台上进行集成和访问。异构数据集成就是在这种情况下产生的。本文从实现就业数据集成服务的角度,分别研究了具有代表性的结构化和半结构化数据集成系统,总结了各个系统的特点。针对结构化数据集成问题,本文利用现有的网格技术和中间件集成思想,使用网格中间件OGSA-DAI实现了结构化数据集成子系统,解决了异构数据库信息的动态更新问题。针对半结构化数据集成问题,本文在基于视觉的网页分块算法基础上,根据就业网站的特点,设计了半结构化数据集成子系统,改进了传统网页提取系统对页面解析能力不足、适应性差的缺点。本文的就业数据集成分成两大部分:结构化就业数据集成和半结构化就业数据集成。其中结构化就业数据集成子系统采用XML作为统一元数据标准,将就业信息数据与元数据进行映射,实现异构数据的统一存储与查询;采用OGSA-DAI中问件实现数据源注册、数据查询、元数据管理和数据更新等功能,有效屏蔽数据库之间的差异,实现结构化数据集成。半结构化就业数据集成子系统首先对网页预处理,生成视觉树;其次使用VIPS算法对页面分块,定位就业信息在网页中位置,并通过人工配置,建立就业信息提取模板;最后利用XPath实现网页就业信息的提取。本文设计了一个就业领域的数据集成服务系统,实现了结构化数据和半结构化数据的数据集成。构建了一个就业数据集成系统原型,实验结果表明系统的设计方案是可行的。
其他文献
随着Internet/Intranet技术的普及、电子商务技术的不断发展,以数据库技术为核心的企业信息管理系统得到了广泛的使用和迅猛的发展,对企业的运营方式带来了有史以来最重大的
智能教学系统(ITS)作为人工智能学科的重要研究应用领域,迄今研究逾30年,但现有一些ITS系统由于知识表示以及推理方法的领域相关特性,系统构建与系统运用、系统模块之间动态
网络和计算机技术的发展促进了网络多媒体视频会议的广泛应用,网络视频会议系统通过网络把多个地点的会议系统终端连接起来,在其间传送图像、语音和各种数据信号,使出席会议
随着信息时代的到来和发展,移动通信越来越受到人们的青睐,并成为了社会进步和经济发展的一个重要因素.移动自组网(MANET)作为一种特殊的无线移动网络,其前身为分组无线网(Pa
自2001年加入WTO后,中国政府承诺三年内逐步开放保险市场。随着外资公司不断涌入中国保险市场,国内保险市场的竞争愈发激烈起来。这种竞争是全方位的,既包括资本的竞争、市场的
授权管理的目标是向用户和应用程序提供授权管理服务,提供用户身份到应用授权的映射,从而提供与实际应用处理模式相对应的,与具体应用系统开发和管理无关的授权和访问控制机制。
演化硬件是将演化计算的理论、模型和算法与可重配置器件相结合,实现硬件系统的自主配置和进化.它已应用到硬件和电子系统设计等领域,是当今信息技术领域的一个新兴的研究方
SIP协议由于其灵活性以及易于扩充的特性,被广泛的应用于CS、NGN以及IMS的网络中。然而,IETF在设计SIP协议时,侧重于SIP协议的简单易用,对于协议本身的安全性问题考虑不足,所
随着网络技术的飞速发展,计算机网络被广泛应用到人类活动的各个领域,网络对社会经济和人们生活的影响越来越大.网络的安全性问题也越来越受到广泛的关注,各种网络安全相关的
基于事例推理的技术是故障诊断领域中一种广泛应用的技术,它是在认知心理学和人工智能原理结合的基础上产生的,具有自主学习的能力,有良好的自适应性和扩充性。我们把基于事例推