基于网页的信息系统的一种预处理过程

来源 :北京大学 | 被引量 : 0次 | 上传用户:michael_lv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的迅速发展,Web上的信息越来越丰富.Web使用方便、信息丰富,人们越来越多的使用Web来寻找需要的信息.为了更好的使用Web上的信息,人们也不断的追求能够有效组织和利用网上信息的技术和系统.然而,Web上的信息存在很多问题:网页内的噪音内容多、Web上近似网页量大以及缺乏必要的元数据信息,这些问题严重影响了Web信息系统的服务质量.针对Web信息系统的共性需求,该文提出了一个预处理框架及相应的方法.该预处理框架包括了三个预处理工作:网页净化、近似网页删除和网页元数据提取.通过预处理过程,原始网页集中的近似网页被删除,而保留下来的网页被净化并转化为一个统一的结构化模型(称之为DocView模型).该模型中提供了各个领域需求较多的元数据和内容数据,它包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等元素.该文提出的预处理方法的一个重要优点是它不需要除原始网页以外的其他信息,而这些额外信息是该领域中其他方法所必须的;另一个优点是将Web信息系统的共性需求放到一个过程中一次性提取出来,可以避免相同中间过程的重复执行,从而提高信息提取效率.该文中提出的预处理框架和方法已经应用到了"天网"搜索引擎和网页自动分类系统中.通过使用预处理后应用系统质量的提高,验证了该预处理方法的有效性.不难看出,通过这样一个预处理过程,可以在任何一个网页集上(包括World Wide Web)搭建一个组织良好的、净化的、更易使用的信息层.
其他文献
众所周知,正是图形用户界面技术使得计算机应用的普及成为现实,正如网络技术让计算无处不在一样,随着计算机及网络技术的不断发展及其向人类工作和生活的不断渗透,对用户界面的要
航天五院是我国主要进行卫星和飞船研制的航天军工科研院所。在企业信息化和以互联网为代表的高科技迅猛发展的今天,传统的住房公积金管理模式已经不能适应企业的高速发展,建立
近年来,一些传统的信息安全技术及相关产品已取得了突破性的发展,但是却普遍缺乏网络防御的主动性和时效性。与此同时,在与入侵者周旋的过程中,信息安全的防范手段往往滞后于层出
随着计算机技术和网络通信技术的高速发展,分布式并发系统已成为当前计算机技术的主流方向。相对于传统的串行计算机系统,分布式并发系统非常复杂,其开发过程不仅难度大,效率低,周
曲线曲面造型是计算机辅助几何设计(CAGD)与计算机图形学(CG)的重要内容。由Coons、Bezier等大师于六十年代奠定理论基础。经过几十多年发展,现在它已经形成了以Bezier方法、B
随着计算机和网络技术的飞速发展和普及,信息系统安全成为当前研究的热点课题。而数据库作为信息的载体,其安全自然成为信息安全研究领域一个非常重要的方面。数据库的安全保护
由于目前主流厂商提供的服务集成的J2EE平台昂贵的成本,以及EJB机制的侵入性,强制的编程规范,很多企业级应用软件的开发需要更轻量级的容器,更少的代码侵入性,更高的组件重用性,更
为了解决利用增值税专用发票偷税骗税的问题,我国开始研制推广增值税防伪税控系统。防伪税控系统集计算机、微电子、光电技术以及数据加密等技术为一体。取消了手工开票的方法
在当今社会“互联网+”的新常态下,网络和传统产业的融合日益紧密,计算技术的发展也在快速改变人们曾习以为常的生活和生产形态。健康和医疗领域就是体现这一改变的典型应用。
新一代语义Web的目标是通过领域本体提供一个共享的和共同的领域理论实现智能的人机交互,计算机之间的互操作和计算机系统中的知识重用。语义Web的发展和标准本体描述语言(OWL