基于HTML模式代数的Web信息提取方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：gogouu

【摘要】

：

高效地生成提取Web信息的包装器有着广阔的应用前景，同时也是至今没有得到有效解决的难题．为此，提出了基于HTML文档的模式代数，该代数包括一致模式集等重要概念以及模式的加法运

【作者】

：

李石君于俊清欧伟杰

【机构】

：

武汉大学计算机学院,中国科学院计算机科学重点实验室,华中科技大学计算机科学与技术学院

【出处】

：

计算机研究与发展

【发表日期】

：

2006年9期

【关键词】

：

WEB信息提取包装器归纳学习 WEB挖掘 Web information extraction wrapper induction Web mining

【基金项目】

：

国家自然科学基金项目（60573095）,湖北省自然科学基金项目（2005ABA238）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

高效地生成提取Web信息的包装器有着广阔的应用前景，同时也是至今没有得到有效解决的难题．为此，提出了基于HTML文档的模式代数，该代数包括一致模式集等重要概念以及模式的加法运算．在此基础上，提出了一种提取Web信息的新方法，该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集，再由多个模式组成的一致模式集提取数据，适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的袁结构网页和层次结构网页，其有效性在原型系统中通过实验得到验证．

其他文献

对三维成像技术的一些认识

人们在观察物体时,能很自然地产生立体感,是由于人的两眼同时观察物体时,在视网膜上形成的像并不完全相同,这两个像经过大脑综合以后就能区分物体的前后、远近,从而产生立体

期刊

立体视觉立体成像技术色分成像法光分成像法时分成像法视疲劳

“精讲多练”法在大学公共体育课中的运用

对于每一个大学从事体育教育的教师而言，怎样让一堂90分钟的课在通过自己的讲解，让学生了解和掌握教材内容特点、技术动作的要领。通过精讲多练法在大学公共体育教学中应用研究

期刊

精讲多练公共体育课教学方法运用

《黄桥烧饼歌》

黄桥烧饼,特产于江苏省泰兴市东郊黄桥镇。不仅远近闻名,而且岁月留香。许多身处千里之外的游客,尤其是一些新四军老战士,甚至不顾耄耋之年疾病缠身,执著地来到这里故地重游,

期刊

黄桥烧饼江苏省泰兴市疾病缠身黄桥镇老战士韩德勤国民党顽固派千里之外黄桥决战抗日民主根据地

MATLAB在通信原理教学中的应用

MATLAB是集数值计算、图形绘制、图像处理及系统仿真等强大功能于一体的科学计算语言。将MATLAB的图形绘制和系统仿真等功能应用于通信原理教学中，能使教学直观生动形象，加深学

期刊

通信原理MATLAB教学

粉煤灰对硅酸盐水泥水化热影响的试验研究

文章着重研究了粉煤灰对硅酸盐水泥水化、水化热、水化放热速率的影响,结果表明适量使用粉煤灰可以得到合适的缓凝效果.

期刊

粉煤灰硅酸盐水泥水化热水化放热速率

油山烽火战旗红

革命老区信丰油山，是南方三年游击战争的核心区域。项英、陈毅等老一辈革命家曾在这里留下许多可歌可泣的英雄事迹。近日，笔者再一次走访油山，瞻仰革命旧址，重温那一段艰难岁月。　　浴血坚持红旗飘扬　　中央红军长征时，留下红二十四师及10多个地方武装共1.6万余人和部分党政工作人员共3万余人，在中央苏区及其邻近地区坚持游击斗争。遵义会议后，项英按照中共中央电报指示，将被围困在中央苏区于都南部的近万名红军部

期刊

油山革命旧址信丰党政工作英雄事迹红军游击队赣粤边特委三年游击战争杨尚奎中央红军

泪道激光成形术联合硅油灌注治疗阻塞性泪道疾病的观察及护理

评价激光联合硅油治疗泪道阻塞性疾病，并对术后疗效进行观察分析。

期刊

激光泪道阻塞硅油手术

基于动态上下文栈的DBMS访问控制模型

存储过程是DBMS中动态实体,确定其执行权限集合是有效进行DBMS访问控制的关键问题.常用方法违反了最小特权原则,从而导致了一系列DBMS安全漏洞.此外,存储过程的嵌套执行为确

期刊

数据库安全RBAC模型最小特权访问控制database security RBAC model least privileges access cont

大学生就业首选国企喜与忧

单从用人单位的吸引力来说，国企超过外企，一定程度值得惊喜，这表明国企的薪资待遇、运营管理、企业文化，已经赶上外资或合资企业，不再让人一提起国企，就想到待遇低、效率低、人浮于

期刊

国企学生就业薪资待遇用人单位运营管理企业文化合资企业福利保障

十月革命暴动

背景介绍　　1933年10月24日，《紅色中华》第121期刊出《庆祝十月革命十六周年与中央政府成立两周年纪念》专号，其中第6版刊登了阿伪撰写的《十月革命暴动纪略》的整版长文，中间配有赵品三的漫画《十月革命暴动》。画中表现了十月革命时期街头巷战的一处场景，高举“打倒克伦斯基政府”“建立苏维埃政府”旗帜的工人队伍，把一小撮资产阶级打得落花流水。画幅下的说明文字是：“一九一七年十一月七日，俄国工农在彼得

期刊

十月革命暴动《红色中华》政府成立苏维埃政府周年纪念革命时期工人队伍

基于HTML模式代数的Web信息提取方法

与本文相关的学术论文