基于简化Dom Tree的网页数据提取

来源 :2012云计算与信息技术应用学术会议 | 被引量 : 0次 | 上传用户:bocha007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文在Dom Tree匹配分析网页数据的基础上,提出了一种基于白名单策略的DomTree简化方法,这种简化方法根据白名单匹配原则对网页嵌套结构进行剪枝和压缩,其生成的网页文本树结构只包含与检索相关的内容区块。本文提出了一种基于简化Dom Tree结构进行网页数据提取的方法。这种方法可以在保证网页主要数据信息不丢失的基础上,提高网页数据分析及获取的速度,缩短网页数据分析的时间。本文利用电子商务网页文本对分析方法进行评估,实验表明提取得到的数据信息完整,主题相关程度高,取得了较好的结果。
其他文献
  对两端都是Skype客户端模型下的不同应用流量分类和识别进行了研究。通过对Skype流量的行为特征和统计特征的分析,提出了一种有效的分类方法,可以很好的将Skype的各种应用
  通过对国内外计算机体系结构课程的分析和研究,分析其相关课程实验课程的设置和安排,同时分析其相关教学实验平台的需求,根据目前体系结构教学的特点和发展趋势,总结了比较全
  随着信息技术的发展和传统实验系统的升级,提高实验平台的利用率和增强服务能力的成为业界研究的热点。云计算(Cloud Computing)为实验平台提供了有力的支撑,然而如何有
  在数字信号处理应用中,除法器是重要的计算模块。相对于其它四则运算,除法的实现需要更加复杂的设计。本文在详述了基二Non-Restoring除法算法后,给出了具体的寄存器配置方
  本文提出了一种基于类标记和成对约束的半监督聚类算法(PLG-SSC),该算法结合了遗传算法的优势,充分利用了前面两方面的监督信息来帮助无监督的聚类。在uci数据集上面的实
  GSM短信功能的行业应用越来越广泛,它具有快捷、经济、针对性强、可移动等优点。文中介绍了GSM短信投票系统的设计思想、实现方案,并进行了测试演示。该系统很好的维护了竞
予生也晚,在我结识王元化先生之前,他早已是名重海内外的大学者了。1992年初秋的一天,李子云老师带我和李庆西去了王先生家里,从此在我记忆中有了一个与其他前辈学者迥然有别
有人说:男人靠吃,女人靠睡。这话有几分道理,不过严格说来,男人女人都要吃好睡好,才能精力充沛,保证健康。但是,现代人有几个睡得好的?有时候甚至觉得,睡不好已经成为很多人
“分众不想成为什么媒体帝国,分众是一个持续稳健成长的公司,未来十年将保持匀速增长,我们不再追求高冲刺,我们要长跑,打造长期竞争力。” “Focus does not want to be the
  本文针对混合类型元素组成的向量,即包含值域离散型、值域连续型元素的向量,提出了一种基于数据驱动的属性权重计算方法。根据查询向量的取值确定搜索空间范围,并统计搜索空