针对模板生成网页的一种数据自动抽取方法

来源 :软件学报 | 被引量 : 0次 | 上传用户:thinkcell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率.
其他文献
利用祁连山海北高寒草甸地区2000年植物生长期内的太阳辐射观测资料, 分析了该地区太阳紫外辐射(UV)在植物生长期内的日、季节变化特征, 以及在太阳总辐射(Eg)中所占的比例(
利用虚源法对南海海盆16座实测海山进行了磁性反演.结果表明,南海海山非均匀磁化反演效果明显优于均匀磁化反演;南海海盆东部和西南部的海山运动方向相反,前者向北,后者往南;
对大井铜多金属矿床硫化物矿石和矿区出露的基性-超基性岩脉的铂族元素分布进行对比研究发现, 闪锌矿、方铅矿为主要成分的黑矿石与基性-超基性岩脉有着类似的正斜率的铂族元
微波遥感测量土壤水分的方法主要分主动和被动两种,它们都是基于干燥土壤和水体之间介电常数的巨大差异.估算植被覆盖土壤表面土壤水分必须要考虑地表粗糙度和植被覆盖影响的
作者提出了一套构建高精度巨型速度场的方法,在塔里木盆地里建立的一个巨型速度场,面积达10.2×104km2,深度达8 km.针对巨型速度场的特有问题,采用野值自动剔除、交点速度闭
研究了山西大同、内蒙古东胜和乌审旗地区发现的大量冰楔假型、砂楔、寒冻裂隙和南部白城子附近的冰卷泥. 根据这些冰缘现象, 并参考前人工作成果, 划定了晚更新世晚期末次冰
本文运用企业理论的分析框架讨论了企业集团的组建问题,从两个企业的情形入手,从激励角度描述了一体化对企业的影响,并将GH的结论扩展到更一般的情形.研究了多个企业情况下的
目前航空发动机涡轮叶片的弦中区大多采用稀疏型(相对叶片前缘)气膜冷却技术。实验研究了这种复合冷却方式中带有冲击射流和没有冲击射流两种情况下的稀疏型气膜出流内部冷气
随着石油勘探研究的不断深入,砂岩透镜体油藏日益受到重视。国内外学者提出了多种成藏机制,包括未知重力运动机制作用下,少数流体分子的个别特性控制透镜状砂岩油藏聚集;毛细
报道了来自香港吐露港、中国长江口及厦门港的3个属的3种隐藻及1个变种,即半片藻Hemiselmis sp.Novarino、伸长斜片藻Plagioselmis prolonga Butcher ex Novarino,Lucas & Mo