基于多种策略的页面内容提取算法

来源 :西南交通大学学报 | 被引量 : 0次 | 上传用户:kfqwyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Web页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阚值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据Web页面提供的结构信息和内容信息提取块结构树叶子节点中的“主题”块和“主题相关”块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容。
其他文献
以活血化瘀中药为主组方内服,配合中药保留灌肠治疗慢性盆腔炎100例,并与用妇科千金片治疗的50例作对比观察,结果总有效率分别为96%、92%,两组比较无显著性差异(P>0.05)。同进观察两组
为了验证线性光放大器的性能,建立了光脉冲在LOA中传输的理论模型,分析了放大器处于增益饱和状态下交叉增益调制效应对传输脉冲的影响、脉冲在LOA中传输的特性,以及不同脉宽对于
为了探讨慢性乙型肝炎的中医药机,本研究将120例患者随机分为4组。对名老中医经验方及经其治法组方进行拆方对比观察。结果:(1)健脾法对消除乏力,纳差症状有显效,故慢性乙肝患者大
第2次世界大战期间,由于战争的需要,许多护士随军到国外参加救护,美国一度出现了护士短缺的现象。随着战争的推进,这种短缺现象日益严重,使得国内护理管理者不得不开始商讨为战争
为了进一步减少支持向量机的训练时间,提出了一种基于类别质心的训练集缩减算法.该算法根据样本的几何分布去除训练集中大部分非支持向量.对样本规模在10^4数量级的数据集进行了
赵文娟2008年大学毕业,但在当时的就业形势下,她迟迟未能找到称心的工作。四处漂泊五六年后,赵文娟倍受打击。
上周(4月28日-4月30日),国内磷酸二铵价格低位走稳。5月5日,中国磷酸二铵批发价格指数(CPPI)为2736.68点,环比下跌5.59点,跌幅为0.20%;同比下跌570.42点,跌幅为17.25%;比基期下跌485.09点,跌幅为1
目前,国内所用血压计袖带外层布套为平布式或粘连式。为肥胖者或高血压者测量血压时,由于被测试者上臂较粗或充气过高,使袖带裂开,从而影响所测血压数值的准确性。在临床中尤其是