网页数据自动抽取系统

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：gxx756_3476

【摘要】

：

在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据，需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动

【作者】

：

王茹宋瀚涛陆玉昌

【机构】

：

北京理工大学计算机系,清华大学计算机系智能技术与系统国家重点实验室

【出处】

：

计算机工程与应用

【发表日期】

：

2004年19期

【关键词】

：

信息提取包装器产生 DOM树 data extraction wrapper generation DOM tre e

【基金项目】

：

国家自然科学基金资助项目(编号:79990580),,国家973重点基础研究发展规划项目(编号:G1998030414)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据，需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOM based Automatic Extraction)，将HTML网页数据转换为XML数据，在提取的过程中基本上不需要人工干预，因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中，或者应用于数据集成系统中等。

其他文献

骨髓间充质干细胞对心肌细胞K^＋电流的影响

目的：骨髓间充质干细胞（bone mesenchymal stem cells，BMSCs）具有向多种组织分化的潜能，在多种疾病的治疗取得了很大的进展。在缺血性心脏疾病中，BMSCs能明显改善心脏的功能。本研

期刊

骨髓间充质干细胞心肌细胞K^＋电流缺血性心脏疾病BMSCS冠状动脉前降支心肌梗塞模型cells

针刺阳陵泉治手臂筋急1则

患者,女,57岁,2015年5月28日就诊。主诉：右手臂疼痛无力1d。自诉1d前因在家洗衣拖地时用力不当,休息后遂感觉右手臂疼痛无力,沉重酸麻,伸举困难,动则加剧,有筋扭别之感。查体：

期刊

飞针阳陵泉手臂筋急

基于功能替代的嵌入式实时事务提交策略

在嵌入式实时数据库系统中，实时事务执行效率的高低直接影响着整个数据库系统性能的好坏。因此有必要对嵌入式实时事务进行有效预分析和预处理，以支持实时事务实现定时限制。文

期刊

嵌入式实时数据库实时事务事务预分析事务预处理事务功能替代集embedded real-timedatabasesreal-timetransacti

关于高职航海教育改革的思考

总体看来，航海高职生学习热情不够高涨、学习动力不够强劲。有些学生不喜欢甚至厌恶航海专业及其课程，在他们看来，从事该专业是种糊涂、无奈的选择，上专业课是件痛苦的事情。于是

期刊

航海专业高等职业教育教育改革进取精神专业课职业素质厌学情绪实践教学

主从式小型集散系统设计

集散型控制系统是一种昂贵的先进自动化装置,作者设计一套经济、实用的主从式小型集散系统,用于仪器开发领域,不仅能节省开发资金,还能提高仪器系统的利用率、可靠性、稳定性。该文构建了小型集散系统的框架,并为此设计一套完善的通讯协议,克服了通用的通讯协议中存在的安全隐患。以此理论为基础,开发了自动生化分析仪系统。

期刊

主从式集散系统通讯协议RS-485Client/Server modelDistributed Control Systemcommunicatio

利用数字影像中直线的结构特征检测直线段

在数字影像中,理想的直线段由呈阶梯状排列的游程所构成。论文利用这一特征提出了一种检测直线段的新方法,它以逐行或逐列搜索带有缝隙的游程作为基础,搜索时能根据已取得的部分直线段预测下一段游程的起始像素位置,检测速度较快,获取的直线段较长,所得结果非常适合于用作为基元以合并成完整的直线。该算法的原理还可用来快速确定表格框线的转角。

期刊

直线检测计算机视觉表格识别图像分析line detectioncomputer visionform recognitionimage analy

清除学生“心灵垃圾”

学校教育及教育工作者，不仅要承担传授学生知识的责任，更重要的，还要扫除学生的“心灵垃圾”，保持学生的心灵卫生。

期刊

学生知识心灵垃圾教育工作者学校教育

火力发电厂主控系统优化控制的几点体会

文章针对内蒙古地区火力发电厂控制系统相对落后的情况，从节能降耗方面讨论了新上机组和老机组改造中DCS控制系统的优化方案。

期刊

DEHMEHDCS优化控制实施方案

C／C＋＋源程序缓冲区溢出漏洞的静态检测

讨论了C／C++源程序中缓冲区溢出的常见表现；分析了其特性以及产生机理；提出了在源代码的AST上附加安全属性进行漏洞静态检测的方法；讨论了该方法的实现过程。