“分类-产品”结构的网页数据精确抽取方法探寻

来源 :数字技术与应用 | 被引量 : 0次 | 上传用户：yhz8668

【摘要】

：

对＂分类-产品＂结构的网页特征进行分析之后,提出一种基于XQuery的精确抽取方法。该方法先提取分类页面的分页信息、产品URL等特征点,爬虫根据特征点进行爬取,然后对产品网页进

【作者】

：

周亮

【机构】

：

华中科技大学电子与信息工程系

【出处】

：

数字技术与应用

【发表日期】

：

2011年12期

【关键词】

：

网页抽取 “分类-产品”结构网页包装器 XQUERY XPATH

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对＂分类-产品＂结构的网页特征进行分析之后,提出一种基于XQuery的精确抽取方法。该方法先提取分类页面的分页信息、产品URL等特征点,爬虫根据特征点进行爬取,然后对产品网页进行数据抽取并保存于XML数据库,使用XPath进行数据查询。该方法适用于需要精确抽取产品数据进行数据建模分析的情景。

其他文献

公路结合城市道路设计特点分析

随着城市的建设和发展,越来越多的公路承担着城市道路的功能,即公路逐渐向市政道路的角色转变。文中以广东潮州市外环大桥及连接线道路工程为例,从路线选线、横断面、道路景

期刊

公路城市道路设计特点

公开市场业务与我国通货紧缩下的货币供给

本文对近几年我国通货紧缩的经济背景下的货币供给特征进行了综述,指出在我国货币当局使用多种货币政策工具进行宏观货币调控的过程中,扩大使用公开市场业务操作,对于达到我

期刊

公开市场业务通货紧缩货币供给中国open market operationdeflationmoney supply

论广西新型农村社会保障制度

建立农村社会保障制度,关系到农村社会经济的稳定及数亿农民的切身利益,也是构建和谐社会、建设新农村的重要内容.当前广西农村社会保障制度的建立,应采取“低水平、广覆盖”

期刊

新农村养老保障合作医疗农村最低生活保障

关于建筑工程中暖通空调安装施工的探讨

<正>随着社会经济的不断发展与进步,人们的生活水平逐渐提高,高层建筑越来越普遍,建筑工程的水平也有了很大提升。暖通空调安装施工是建筑工程中较为常见的一项工作,其安装质

期刊

暖通安装工程建筑工程施工过程中暖通空调安装暖通系统

企业微信公众号传播效果的研究

本文运用"使用与满足"理论,从受众的视角研究其使用微信公众号的态度,通过实证分析,研究发现:第一,消费者能够便捷的接触企业微信公众号,并且对该媒介的印象良好,使用该媒介

期刊

企业微信公众号传播效果

人口抚养负担、金融市场参与和家庭资产配置

本文运用中国家庭金融调查(CHFS)数据,研究家庭人口抚养负担对家庭金融市场参与和家庭资产配置的影响。研究发现,人口抚养负担的增加会降低家庭参与金融市场的倾向,并降低家

期刊

人口抚养负担少儿抚养比老年抚养比金融市场参与家庭资产配置

“分类-产品”结构的网页数据精确抽取方法探寻

与本文相关的学术论文