论文部分内容阅读
本文在Dom Tree匹配分析网页数据的基础上,提出了一种基于白名单策略的DomTree简化方法,这种简化方法根据白名单匹配原则对网页嵌套结构进行剪枝和压缩,其生成的网页文本树结构只包含与检索相关的内容区块。本文提出了一种基于简化Dom Tree结构进行网页数据提取的方法。这种方法可以在保证网页主要数据信息不丢失的基础上,提高网页数据分析及获取的速度,缩短网页数据分析的时间。本文利用电子商务网页文本对分析方法进行评估,实验表明提取得到的数据信息完整,主题相关程度高,取得了较好的结果。