面向知件构造的网页信息抓取及检索系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:wu21211721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“知件”是本文作者所在研究团队于2005年提出的一个概念,它与硬件和软件相对应,用于刻画可独立成为IT领域可商品化的知识模块,其基本理念是封装可表示的知识,并通过统一规范的接口与软件交互,提高知识的可共享性、可重用性和针对性,并支持以知识为中心的IT应用开发。“知件库系统”是基于知件的理念开发的一个用于收集、发布、更新、浏览、检索知件,并支持在线知件共享与应用的管理系统。本文的工作是对该系统中在线信息抓取与相关信息检索功能模块的设计与实现。  互联网是一个庞大的知识库,如何充分利用互联网上的信息对知识库中特定领域的实例信息进行扩充,是知识提取领域研究的热点问题。本文在知件库已有系统的基础上,对基于知件模型进行网页信息抓取的技术方法进行了调研研究,从知识源、知识获取技术和手段、知识的表示和组织、知识库的规模和知识用途等方面对现有平台进行了对比和总结,针对动态异构页面信息的抓取、知识概念与网页领域信息的对应关系、概念实例的提取和存储、相关领域信息检索等技术问题进行了研究,设计并实现了面向知件构造的网页信息抓取及检索系统。  本文在对上述系统模块所涉及的研究背景、相关技术进行总结的基础上,阐述了面向知件构造的网页信息抓取及检索系统的设计思路、体系结构与设计方案,并对所采用的关键技术方法进行了论述。  
其他文献
随着计算机科学发展,Agent在人工智能和计算机科学界的地位变得日益重要.学术界和工业界的研究人员越来越重视Agent系统的理论研究和应用研究.Agent能够模拟人类的行为,具有
随着经济全球化和知识经济时代的到来,以追求企业整体效益的集成化和智能化的现代集成制造系统(CIMS)逐渐发展起来.CIMS的概念扩展至流程制造企业,即形成了流程工业计算机集
信息安全评估技术是随着Internet信息化飞速发展而产生、随着网络信息安全问题日益严峻而逐步发展壮大的一门技术.由于不同领域根据不同方法对这门技术的评估结果各有侧重不
随着计算机网络的迅猛发展,各种高速通讯设施争相出现,网络环境也变得越来越复杂,人们可以方便的获取自己想要的资料、信息。但高速网络给人们在生活、工作、学习中带来便利的同
随着技术的发展及数码产品的普及,图像与视频等视觉信息呈现出爆炸式的增长趋势,如何有效的处理海量的视觉信息并获得符合人类认知的分析结果成为一个重要课题。显著区域检测从
在现实世界里,人们经常需要将自己的某些权力委托给可靠的代理人,让代理人代表本人去行使这些权力.在这些可以委托的权力中包括人们的签名权.委托签名权的传统方法是使用印章
数据挖掘,是从大量原始数据中提取知识的过程.由于其在现实生活中的广泛应用,数据挖掘领域在研究方面已有很大发展.然而,在一种新的数据环境中,即数据流环境中进行挖掘是一项
在社会用电量和用电规模剧增的今天,电力系统从发电厂、输供电线路、变电站、配电所直到电度表,大量各种各样、不同规范的电气设施分布在广阔的地域和空间.这对电力系统的生
技术和历史等各种原因造成了企业应用系统的分割,多个系统之间相互独立,无法共享数据,需要一种新的技术来解决这些问题.企业数据集成将企业的离散数据源联合起来,建立一个全
感知网由大量低成本、低能耗、体积小巧且具有一定计算能力和组网能力的感知设备组成,是一种以数据为核心的系统.在处理由大量感知节点产生的数据时面临一个重要的问题,即如