采用最小DFS的Deep Web结构化数据抽取

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:pgglankejianxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过分析动态数据在其Web页面中的展示特点,提出一个新的自动化、结构化数据抽取方法。首先基于DOM利用算法实现快速定位数据区,从而避免处理大量噪音数据;其次引入最小DFS编码来表示DOM子树,通过聚类对记录数据区进行区分;最后对少量样本页面训练学习生成抽取规则用于数据抽取。利用原型系统针对实际网站中的页面进行数据抽取,实验结果显示其拥有较高的准确性和效率。 By analyzing the display characteristics of dynamic data in its Web pages, a new automated and structured data extraction method is proposed. Firstly, based on the DOM algorithm, the data area is quickly located so as to avoid processing a large amount of noise data. Secondly, a minimal DFS coding is introduced to represent the DOM sub-tree and the data area is distinguished by clustering. Finally, a small amount of sample pages are trained to generate extraction rules In data extraction. Using the prototype system to extract data from the pages in the actual website, the experimental results show that it has higher accuracy and efficiency.
其他文献
在高中教学阶段,心理健康教育是不可或缺的教学组成部分,开展心理健康教育活动是实施心理健康教育的主要途径。在新时期的教学背景之下,教师设计的心理健康教育活动课需要具
临床药师的工作内容包括:参与查房、提供药学信息服务、进行药物治疗监测与疗效评价、进行用药教育、参与会诊等,其工作目的是系统地运用临床药学专业知识与技能,发现、解决或
2008年8月26~27日,由中国热带农业科学院主办、攀枝花市农林科学院承办的“农业部948项目晚熟芒果现场展示暨产业交流会”在四川省攀枝花市成功举办。中国热带农业科学院、海南
为避免由于存货太多而导致大约1760亿印尼盾的亏损,印度尼西亚可可协会(Askindo)要求政府将可可豆出口税的实施推迟6个月。
年轻女性旅游市场具有较好的发展前景,但是市场的开发依然处于起步阶段。旅游从业者旅游从业者只有了解年轻女性旅游者的消费心理,打造出契合消费者的需求的旅游产品和服务,
弹性力学广泛应用于许多工程领域,具有非常多的工程应用实例。目前教学中出现的学生认为弹性力学仅仅是推导公式,甚至出现学习逆反心理的现象。本文提出,在制作课件及课程讲
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的探讨2型糖尿病足部溃疡患者血栓素A2表达水平的变化以及相关影响因素。方法择取2016年10月—2018年10月在该院诊疗的98例不同程度2型糖尿病患者,并对患者的检查结果和一
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技