Web信息的自主抽取方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:MHSLOVE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了基于表格结构及列表结构的Web页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。
其他文献
据世界卫生组织统计,我国已逐渐进入老龄社会,因此心力衰竭患者的数量也在逐年上升。急性左心功能衰竭是心内科的急危重疾病之一,病情凶险、变化快,需要及时高效的抢救治疗,
"中国土司学"作为一门专学,必须在凝炼学科方向、打造学科特色、建设学科队伍、加强科学研究、搭建科研平台等方面着力。只有土司研究学界的专家学者加强"中国土司学"学科建设,并
文章提出了架构于GIS(地理信息系统)之上的台情数据库查询系统的设计与实现,并对该系统的功能和关键技术做出了详细描述。基于GIS的台情数据库查询系统实际应用于全国无线电短波监测网络系统当中。
绿色人力资源管理是基于环境保护所提出的人力资源管理模式,旨在提高员工的绿色行为,使员工成为绿色员工。从具体措施来讲,绿色人力资源管理实践要求企业在人力资源管理各环
卫生部马晓伟部长指出:开展优质护理服务不是单纯强化基础护理,也不仅是在近期内加强临床护理,更重要的是要在临床护理模式、护理管理方式、绩效考核方法、薪酬分配和激励机制
选择Internet/Intranet作为办公平台的政府机构和企业日益增多,但由于采用手工方式发布新闻,无法满足信息的实时更新要求。基于RSS(RDF Site Summary)1.0标准的新闻发布系统实现
企业应用系统面临频繁的重构,重构建模的效率是影响系统重构性能的关键因素.而构件技术则是改善建模效率的有效手段。在提出基于特征的业务构件模型之后,研究构件之间存在的结构
基于虚拟仪器技术的发动机电子调节器检测仪,可以完成“电子调节器检测”、“发动机试车参数显示”以及“传感器检测”三项检测功能。检测仪硬件模块主要包括6块APCI板卡和两
大数据时代对城市研究方法的变革主要来自于对反映人们行为特征的网络数据以及城市物联网信息的挖掘、处理及应用。本文首先对网络大数据的获取、储存与处理技术做了简要介绍
随着当今教学理念的改变,中学美术课程的教学侧重点也发生了变化。在当下美术教学课程中,教师应该积极应用综合实践板块,及时教学策略、创新教学理念,培养学生的设计意识、创