“分类-产品”结构的网页数据精确抽取方法探寻

来源 :数字技术与应用 | 被引量 : 0次 | 上传用户:yhz8668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对"分类-产品"结构的网页特征进行分析之后,提出一种基于XQuery的精确抽取方法。该方法先提取分类页面的分页信息、产品URL等特征点,爬虫根据特征点进行爬取,然后对产品网页进行数据抽取并保存于XML数据库,使用XPath进行数据查询。该方法适用于需要精确抽取产品数据进行数据建模分析的情景。
其他文献
随着城市的建设和发展,越来越多的公路承担着城市道路的功能,即公路逐渐向市政道路的角色转变。文中以广东潮州市外环大桥及连接线道路工程为例,从路线选线、横断面、道路景
本文对近几年我国通货紧缩的经济背景下的货币供给特征进行了综述,指出在我国货币当局使用多种货币政策工具进行宏观货币调控的过程中,扩大使用公开市场业务操作,对于达到我
建立农村社会保障制度,关系到农村社会经济的稳定及数亿农民的切身利益,也是构建和谐社会、建设新农村的重要内容.当前广西农村社会保障制度的建立,应采取“低水平、广覆盖”
<正>随着社会经济的不断发展与进步,人们的生活水平逐渐提高,高层建筑越来越普遍,建筑工程的水平也有了很大提升。暖通空调安装施工是建筑工程中较为常见的一项工作,其安装质
本文运用"使用与满足"理论,从受众的视角研究其使用微信公众号的态度,通过实证分析,研究发现:第一,消费者能够便捷的接触企业微信公众号,并且对该媒介的印象良好,使用该媒介
本文运用中国家庭金融调查(CHFS)数据,研究家庭人口抚养负担对家庭金融市场参与和家庭资产配置的影响。研究发现,人口抚养负担的增加会降低家庭参与金融市场的倾向,并降低家