web论文信息抽取系统设计

来源 :长春工业大学 | 被引量 : 0次 | 上传用户：wylalone

【摘要】

：

当前，Web已经成为人们获取信息的主要渠道之一。然而，用于表达Web页面信息的HTML语言存在着与生俱来的缺点。HTML的“标记”只是告诉浏览器如何显示所定义的信息，却不包含任何语

【作者】

：

赵月

【机构】

：

长春工业大学

【出处】

：

长春工业大学

【发表日期】

：

2006年期

【关键词】

：

Web信息信息抽取文档对象模型正则表达式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前，Web已经成为人们获取信息的主要渠道之一。然而，用于表达Web页面信息的HTML语言存在着与生俱来的缺点。HTML的“标记”只是告诉浏览器如何显示所定义的信息，却不包含任何语义。因此由HTML语言所表述的Web页面经过浏览器分析后只适合人们浏览，不适合作为一种数据交换的方式由机器处理。同时，由于Web信息的动态性、不规则性、信息量巨大，给信息搜索和查询带来了很大困难。因此，Web信息抽取是目前WWW和DB界研究的热点。论文给出了一种基于DOM树结构路径和基于文本特征模式匹配的从HTML页面中抽取论文信息的方法，该方法以文档对象模型DOM为基础，把所要提取的信息在DOM层次结构中的路径作为信息抽取的“坐标”，并且用正则表达式表示抽取信息的文本特征，并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成抽取规则，该方法将抽取出的信息存放在关系数据库中，以支持查询及各种应用。信息抽取过程划分为两个阶段：训练阶段和抽取阶段。在训练阶段，用户选定样本实例，定义所要抽取的信息模式，标记感兴趣的信息，系统在此基础上归纳出信息在网页上的DOM路径及文本特征和属性名，即抽取规则，并保存在知识库中。在抽取阶段，系统根据训练阶段产生的知识库对与样本具有相似结构的网页进行信息抽取，并将抽取出的结果保存在关系数据库中。基于这种抽取方法的原型系统可直接应用于Web查询和搜索，也可用于其它应用(例如数据仓库和数据挖掘等)的数据准备，抽取效果良好。论文采用此方法，以计算机学报等网站的大量论文网页为样本进行了实验，都可以进行抽取，抽取的效果良好。

其他文献

基于深度神经网络的无监督特征学习

随着移动互联网的发展，从移动设备涌入大量多样化的数据，这些数据的处理和分析给我们带来了机遇和挑战。而深度学习研究也在计算能力的提升以及大数据等因素的推动下，突破了计算

学位

无监督特征学习深度神经网络聚类分析数据降维

基于特征提取的植物病虫害识别

农业信息采集工作量巨大，信息的现实性、及时性与准确性是农业生产和科学研究领域普遍关注的问题，如何能及时快速地进行植物病虫害的准确判断一直是计算机技术面向农业领域研究

学位

病虫害数学形态学特征提取模式识别

设计模式在基于框架和构件技术的软件开发中的应用研究

框架和构件技术是现阶段软件工程的一个重要研究领域，随着软件系统规模的不断扩大，整个系统的结构显得愈发重要。另一方面随着系统复杂性的不断提高，设计模式技术应运而生，设计模

学位

设计模式框架技术软件构件软件开发保险业务系统

数据挖掘方法在入侵检测中综合应用的研究

随着计算机和通信技术的发展，网络已经成为全球信息基础设施的主要组成部分，但随之而来的是不断暴露的网络安全问题。对目前绝大多数只采用防火墙进行安全保护的内部网络来说，仍

学位

入侵检测数据挖掘决策树关联规则序列模式网络安全

增强型成本分析自动入侵响应系统的研究

随着网络技术的发展,Internet已逐渐成为现代社会不可缺少的部分。同时网络安全问题也日益突出,层出不穷的网络病毒和黑客攻击越来越成为人们关注的焦点。目前对入侵防范主要

学位

网络安全入侵响应成本分析支持向量机响应调整

可复用软件资源库的互操作技术研究

软件复用是解决软件危机的一条切实可行的途径。为此，不仅要有可复用软件资源库(以下简称复用库)，还要使复用者能高效地找到合适的可复用软件资源。目前存在许多复用库按不同的

学位

复用库软件设计软件复用互操作术语相关度

服装建模中的穿透修复及动画方法研究

虚拟服装建模在服装工业、影视及游戏、电子商务等诸多领域都有着广泛应用，一直是计算机图形学领域的研究热点和难点，直到现在快速、逼真的布料模拟的实现仍然是一个挑战。本文

学位

服装建模穿透修复模型配准动画技术

基于频域系数特征的数字图像盲取证技术研究

随着信息技术、多媒体技术和互联网技术的快速发展，人们可以更加方便地获取一幅数字图像。然而，人们在享受数字图像带来快乐的同时，也被一些无法识别的伪造图像的肆意传播所困扰

学位

频域系数特征图像取证篡改检测差分DCT系数

基于内容的图像检索在医疗PACS中的应用

随着图像等多媒体资源的日益丰富，基于关键字和描述文本的传统检索方式已不能再满足检索需求，有效地管理海量数据资源的需求变得日益迫切。基于内容的图像检索技术于是应运而生

学位

图像检索图像存储通信系统医学图像颜色纹理

基于贝叶斯和信息指纹的博客内容审计研究与实现

博客(Blog)作为一股正在迅速崛起的新的网络变革力量,它的出现丰富和改变了网络的内涵,影响了人们的信息传递方式,在最近几年的时间里迅猛发展,对人们的影响也越来越大。而随

学位

贝叶斯算法信息指纹博客内容审计数据查找

web论文信息抽取系统设计

与本文相关的学术论文