基于统计的网页净化模板生成算法

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:hifithink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成
其他文献
在回顾了预应力混凝土管桩基础在建筑工程中应用发展的同时,对比目前建筑工程桩基础中几种应用普遍的桩型的应用特点.并在此基础上结合一个实际工程探讨了预应力混凝土管桩在
结合乐山至宜宾高速公路工程,论述了进行公路工程可行性研究的一般方法,重点阐述了如何用层次分析法和模糊综合评判法进行方案比选。
运用ANSYS有限元原理对带暗柱短肢剪力墙结构进行了弹塑性分析。并分析了影响短肢剪力墙受力的各种因素:墙肢肢厚比、混凝土强度等级、连梁跨高比、轴压比等对短肢剪力墙承载
高速铁路的中间站选址涉及很多因素,使方案的选择存在着很大的主观性和模糊性.为了得到比较合理的、充分反映客观实际的方案,在对这些选址因素进行分析后,运用模糊数学理论建
文章对钢管混凝土(CFST)柱-钢筋混凝土(RC)环扁梁中节点(JF-1、JF-2)这2个节点在静载和低周反复荷载作用下的试验结果从承载力和变形能力两方面进行分析,并对环扁梁节点在破坏形态
结合某山区交通战备桥维修加固工程实践,研究设计资料缺失的双曲拱桥的检测和承载能力评估问题,提出此类桥型的加固设计和加固施工方法,将高性能混凝土材料和植筋技术应用于
粤海通道铁路轮渡工程是我国第一个跨海轮渡工程,在此主要对设计情况作扼要介绍.