基于分类本体的Web信息集成

来源 :网络与信息 | 被引量 : 0次 | 上传用户:motombo555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  1 引言
  
  信息集成通常是针对某个既定目标,或面向某特定任务,对信息进行组织和管理,它包含一种使相关的多元信息有机融合并优化使用的理念。网络环境下,数据极大丰富的同时也带来了数据泛滥的问题,Web信息集成技术是从巨量的信息中获取有效信息的方法。利用此项技术,用户只需关心自己的真正需求而无须登录多家网站;它提供的集成技术,能去除来自不同网站的数据的不一致性及冗余性;同时在搜集不到数据时,它提供的代理服务还能定时去自动获取数据。
  目前,建设Web信息集成系统有两种方法[1,2],分别是物理集成法和逻辑集成法。
  
  2 基于分类本体的Web信息集成
  
  2.1 基本思路
  传统Web信息集成,大多面向页面信息内容集成,基于页面结构、页面内容语义等实现集成,很少考虑网站组织结构的作用。基于分类本体的Web信息集成的核心思想[3]是:充分挖掘作为Web页面聚合出现的网站的组织结构,对网站组织结构进行一系列的转换和处理,实现各网站组织结构的对应和集成,并达到各网站集成。
  2.2 基于分类本体的Web信息集成过程
  对网站进行基于分类本体的集成处理的过程如下:
  (1)从各信息源网站获取信息。在基于分类本体的Web信息集成中,信息获取以网站为单位进行,包括两部分:一是信息和网站结构图获取;二是网站分类体系抽取。从网站首页开始下载页面,并在下载页面的同时,记录页面间的链接关系,从而实现信息和网站结构图获取,获取的网站结构图进行了适当的简化。
  (2)信息预处理。在基于分类本体的Web信息集成中,信息预处理包括两方面内容:页面内容提取,和基于网站结构的信息分类。分析页面HTML源文件,从中提取页面信息内容,构建出结构化的页面信息记录。本文主要处理新闻页面,所以结构化记录的形式为“id,URL,title,keywords,time,content”,id为系统自动产生的序号,URL为信息所在页面的链接地址,title为页面标题,keywords为页面关键字,time为信息发布时间,content为新闻详细内容。
  (3)网站分类体系集成。网站分类体系集成,即分类本体支持下的多网站分类体系合并。用户从上面提取的信息源网站分类体系树中,选择感兴趣的部分,组成输出分类体系作为输入,如果不选择则整个体系作为集成的输入;在标准Web分类本体的支持下,各输入分类体系标准化为标准输出分类体系,这些标准分类体系语义和结构冲突、差异都已经消除,只是内容可能不同,合并这些标准输出分类体系得到标准集成分类体系,即可实现各信息源网站分类体系的集成。
  (4)用户视图生成。在全局统一集成视图的基础上,提供个性化视图构建支持工具。结合用户的个人资料,在用户简单参与下,设定页面风格,信息展示方式、位置和排列顺序等,生成个性化视图界面。
  
  3 基于Portal的集成视图
  
  使用Apache开源项目Jetspeed2开发NEU-WIIS系统的前台部分, Jetspeed-2是Apache开发的下一代企业级Portal。在集成系统Portal视图中,如果用户没有登录,则可以浏览系统提供的默认Portal页面,可以在系统默认提供的各信息聚合页面间选择和切换,在各信息页面上,可以选择portlets的状态为展开或最小化,图1为系统用户的Portal浏览视图。
  


  
  参考文献
  [1]孟小峰.Web信息集成技术研究[J].计算机应用与软件,2003,20(11):32-36.
  [2]S. Abiteboul, D. Suciu and P. Bunemann. Data on the Web: FromRelationstoSemi-
  Structured Data and XML [M].San Diego: Morgan Kaufmann Press,1999,58-86.
  [3]GAO Ke-ning,Ma An-xiang,Zhang Bin.Web Integration Based on Classification Ontology[J],Journal of Southeast University(English Edition),2006,22(3):426-429.
其他文献
如今,越来越多的PC在出厂时预装Windows Vista,这在很大程度上给用户带来了方便——虽然预装的Windows Vista多为Home Basic之类简化版本——不过,对许多用户而言,也许更习惯于Windows XP,加上日常使用的某些应用软件可能在Windows Vista中运行不太正常,因此,很多人希望能在系统中安装Windows XP,当然,前提是不影响系统中预装的Windows V
期刊
整机要做到防尘、防高温、防磁、防潮、防静电、防震。  电脑应放置于整洁的房间,避免灰尘太多对各电脑配件造成不良影响;电脑周围应保留足够的散热空间,不要堆放杂物;电脑工作期间不要吸烟,烟雾对电脑的损坏也不可小看;  电脑周围不要有强大磁场,音箱尽量不要放在显示器附近,也不要将磁盘、信用卡以及饭卡等放在音箱上面以防止被磁化;  不要在电脑桌上放置茶杯,更不要将其置于主机、显示器、键盘之上,电脑最怕水了
期刊
1.在Standard CMOS Setup里没有连接IDE设备的端口的TYPE和MODE设为None。    2.将CPU Internal Cache、External Cache设为Enabled,打开CPU一二级缓存。    3.将System Boot Up speed设为High。使系统引导速度为高速。    4.将Boot Sequence设为“C,A:”。    5.将Floopy
期刊
经常有朋友问“为什么在网上看不到FLASH,只看见一个空白方框”、“每次上网都提示安装flash插件,但是安装的时候又有故障提示:‘Adobe flash player安装失败,请访问http: // www.adobe.com / go / tn_19166_  cn’”。其实多数是因为重装系统时,没有安装好Adobe flash player所造成的。  于是我到网上搜索解决的方法,但是绝大多
期刊
IE是大部分计算机用户上网所使用的浏览器,因此也成为各种病毒、恶意程序所攻击的对象。这里介绍一些简单有效的IE遭破坏后的自我修复方法:     1.IE插件遭恶意破坏     网上有报道称在正常关机之后,再次开机,Windows XP系统却不能正常启动。WindowsXP系统开机后,在启动列表中无论是选择正常或者安全模式启动,均无法正常进入系统,而且机器随后自动重启,如此循环,使用系统修复等措施也
期刊
下面这34条DIY攒机、配件知识一句话经验,写在这里,希望对朋友们能有一些帮助。  (1) 对于中低端显卡,超过256MB的显存是没有多大意义的。用低端显卡组建SLI不如购买同样价格的中高端显卡。  (2) 如果你已经确定好配件,在攒机时千万不要被经销商几句忽悠就更改配件。一般来说经销商均是根据自己利润多少来向你推荐的。  (3) 目前普遍的CPU都相当好超频,但很多低价主板都是不能超频的。如果你
期刊
我们知道,笔记本的散热问题一直是困扰广大Vista本本用户的难题,网上有一种用手感觉笔记本温度的方法(直接摸笔记本电脑的键盘和底部),大家不妨一试,这种方法简单有效。  一般来说,手感觉不到的温度在25℃左右;有温度的感觉了在35℃度左右;温温的,也就是挺暖和的感觉应该在45℃左右;热但还可以连续接触应该在55℃左右;感到烫不过还能忍受三五秒的温度因该在70℃左右;感觉很烫,接触一下就后悔碰它了,
期刊
1 Linux的背景和特色    (1) 完全遵循POSLX标准,并扩展支持所有AT&T和BSD Unix特性的网络操作系统。    (2) 真正的多任务、多用户系统,内置网络支持,能与NetWare、Windows NT、OS/2、Unix 等无缝连接。    (3) 可运行于多种硬件平台,包括Alpha、SunSparc、PowerPC、MIPS等处理器,对各种新型外围硬件,也可以从分布于全球
期刊
很多人认为,只要重新安装了操作系统,就可以彻底清除病毒。但却不知道在操作系统进行重新安装后,由于安全设置以及补丁未及时安装等问题,最容易导致病毒的大肆入侵,因此一些必备的补充措施是非常关键的。    一、不要急着接入网络    在安装完成Windows后,不要立即把服务器接入网络,因为这时的服务器还没有打上各种补丁,存在各种漏洞,非常容易感染病毒和被入侵。此时要加上补丁后并重新启动再联入互联网。 
期刊
AutoCAD是国内广泛使用的计算机辅助绘图软件,已成为机械专业学生的主要绘图工具,操作此软件最直接的要求是在最短的时间内准确地完成绘图任务。但很多学生在实际工作中绘图速度慢,工作效率低,本人以AutoCAD2006中文版为参照,总结多年绘图的经验,整理出点滴学习思路,以供广大从事AutoCAD教学的教师、希望提高绘图速度的学生及其他相关人员参考。    1 合理配置AutoCAD共性参数,创建机
期刊