论文部分内容阅读
对"分类-产品"结构的网页特征进行分析之后,提出一种基于XQuery的精确抽取方法。该方法先提取分类页面的分页信息、产品URL等特征点,爬虫根据特征点进行爬取,然后对产品网页进行数据抽取并保存于XML数据库,使用XPath进行数据查询。该方法适用于需要精确抽取产品数据进行数据建模分析的情景。