基于Internet半结构化信息抽取技术研究

来源 :中国地质大学中国地质大学(武汉) | 被引量 : 0次 | 上传用户：ninetails

【摘要】

：

Web上有海量的数据信息，怎样对这些数据进行综合复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。充分

【作者】

：

付晶

【机构】

：

中国地质大学(武汉)

【出处】

：

中国地质大学中国地质大学(武汉)

【发表日期】

：

2005年期

【关键词】

：

国际互联网半结构化信息数据挖掘信息抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web上有海量的数据信息，怎样对这些数据进行综合复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。充分利用有用的数据，废弃虚伪无用的数据，是数据挖掘技术的最重要的应用。对于Web的数据而言，传统的数据库中的数据结构性很强，即其中的数据为完全结构化的数据，而Web上的数据最大特点就是半结构化。为何说是半结构化的数据呢?Web上的数据非常复杂，没有特定的模型描述，每一站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性。因而，Web上的数据具有一定的结构性，但因自述层次的存在，从而形成一种非完全结构化的数据，这也被称之为半结构化数据。所以，半结构化是Web上数据的最大特点。针对Web上的数据半结构化的特点，寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外，还需要一种半结构化模型抽取技术，即自动地从现有数据中抽取半结构化模型的技术。因此面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。本文首先构造了一个网页搜索引擎，这是信息抽取的第一个环节。构造搜索引擎又分为两方面。第一，正确的了解用户的意图。这就涉及到对用户输入信息的分析，即中文分词。本文分析比较了几种传统的分词算法，并实现了一种改进后的中文分词技术，提高了分词的效率；第二，根据用户的意图搜索符合条件的网页。本文根据WebSpider的原理，构造了一个网络蜘蛛程序，成功的获取了需要的网页。获取了信息源之后，进而搭建一个网页信息的抽取平台。为能保证抽取出的信息更加准确及可用性强，系统还提供了一个帮助构造抽取模式的用户图形界面，以交互的方式获取用户需要信息的路径，并基于此构造XSLT文件，最终完成信息抽取。最后，本文还对几种不同类型的抽取规则的健壮性进行了分析比较并给出了结论。

其他文献

基于元学习策略的关系模式分类工具的设计与实现

关系模式分类是通过分析关系模式的语义，按照应用需求把关系模式划分到一个或多个合适类别或主题的过程。其在数据集成中的数据映射、数据迁移、逻辑模型设计、ETL等工作中起

学位

关系模式模式分类元学习

格基约化理论在运输问题中的应用

本文介绍了格基理论的主要原理与它的一些实际应用，然后把格基约化理论应用到运输问题的求解上来.运输问题实际上就是求解满足一定约束条件的线性方程组A·x=b，一般情况下，这是

学位

格基约化运输问题LLL算法分枝定界算法

基于Struts和JDO的项目验收系统的研究与实现

随着电子商务的迅猛发展，企业级分布式应用程序的开发越来越受关注。SUN的J2EE体系架构是目前市场上主流的企业级分布式应用程序开发平台。使用J2EE架构，能够快速、高效地开发

学位

项目验收系统J2EEStrutsJDO数据持久化DAO模式

油田地面工程协同设计系统的研究与实现

计算机支持的协同工作(CSCW)是一个新兴的研究领域。随着 Internet 的飞速发展和广泛应用,国内外研究与开发人员对这一门新兴的学科表示出越来越浓厚的兴趣。一批批的科研成

学位

协同设计协同工作数据加密协同工具安全控制信息共享工作流

线性不适定反问题的数值计算

反问题的数值计算是近年来计算数学的研究重点之一，本文对线性不适定反问题的正则化方法进行了研究，统一了常用的几种正则化方法，并针对工程实际应用中两类常见问题——线性不适

学位

正则化方法正则参数不适定线性方程组光滑因子数值计算

数字图书馆中基于元数据的关联技术研究

本文与以往建立在系统层次上的数字图书馆关联技术不同，此处所讨论的关联技术是建立在资源层次上的，通过使不同资源的元数据之间的关系显式化，将资源联系在一起。主要工作是设计

学位

数字图书馆元数据关联关系数据模型

基于uClinux的远程视频监视器的研究与设计

近年来,网络技术和视频技术迅速发展,传统的监控系统也不断向新的方向发展,出现了结合网络技术和视频技术的远程视频监控系统。在构建基于Web的远程监控系统时,传统的8/16位

学位

uClinux嵌入式Web服务器CGI远程监视

基于SIP的通信系统的策略服务的设计与实现

本文主要针对SIP通信中的策略的制定和部署等相关问题进行探讨。首先对SIP通信中的各种要素进行了分析，在此基础上，对基于SIP通信系统中策略进行了深入的分析。在面向终端用户

学位

通信服务系统策略制定终端用户脚本方式

基于IPv6的家庭网关集中访问技术的研究与实现

计算机和网络技术的飞速发展，深入影响着社会生活的方方面面。家电信息化、家庭网络化已是信息时代的必然趋势。拥有一个体现高新科技无穷魅力的智能化、现代化的家庭已不再是

学位

家庭网络信息家电家庭网关模板文件控制页面RTCPIPv6

新闻视频结构化及其在移动视频点播中的应用

随着多媒体和网络技术的发展，网络视频信息已成为日常工作和生活的重要信息来源。如何在大量视频中快速、准确地进行信息检索成为多媒体技术发展中的一个核心问题。基于内容的

学位

新闻视频结构化镜头边缘检测主持人镜头识别广告定位主题字幕获取

基于Internet半结构化信息抽取技术研究

与本文相关的学术论文