一种新的HTML页面清洗压缩算法

来源 :福建电脑 | 被引量 : 0次 | 上传用户:qqzlei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种新的适用于Web信息抽取的HTML页面清洗压缩算法。该算法充分利用了HTML页面树中各标签的相对位置信息。实验表明,该算法能够有效地处理页面中的语法错误,并实现对页面冗余数据的压缩。具有良好的实用价值和应用前景。
其他文献
NB-IoT终端支持超低功耗、超大覆盖、超大连接。在广域网蜂窝数据网络下,也被称之为低功耗广域网;NB-IoT终端待机时间长、对网络连接要求较低。NB-IoT设备电池寿命长,最高可以延长使用10年,同时还能为室内提供全面的蜂窝数据连接覆盖系统。
文章认为《读者》现象是基于"媒介化社会"和"日常生活审美化"理论之上的一种想象性建构,是传播者与受传者在特定形式上共谋上演的一幕传奇,其风格基于精英的立场,体现出保守的消
目的探讨康复护理对尘肺病患者心率及血氧饱和度的影响效果。方法对照组给予常规治疗及护理措施,研究组在常规治疗与护理基础上给予康复护理措施。记录2组治疗前后心率、血氧
本文主要介绍了DoS和蠕虫攻击的特征,利用QoS的策略设计网络攻击的防御方案,有效的判定网络攻击中非正常数据流的优先级别,达到园区网中防御网络攻击的目的。
通过条码识读设备和税控收款机可以容易地收集到大量的商业数据(购物篮数据),对这样的商业数据的相关分析是商业辅助决策系统的一项重要内容.文章首先研究了购物篮数据项间的相
目的对比腋下与锁骨中线入路胸腔闭式引流治疗气胸的临床疗效。方法选取2013年1月—2015年3月我院收治的100例创伤性或自发性气胸患者作为研究对象,按照随机数字表法将100例
从期刊市场细分化出发,认为小众期刊的编辑角色定位应与期刊定位相结合,具备良好的专业眼光,拥有创新意识,同时与社会相融合,发挥纽带作用,促进专业期刊的发展。
Prolog是一种人工智能语言,它在AI和知识库的实现技术中具有十分重要的作用。本文介绍了Prolog的工作原理.并通过实例分析了Prolog语言的特点。利用Prolog的逻辑描述能力和推理
目的 对比高通量血液透析与常规血液透析的应用效果。方法 选取我院2015年10月—2016年10月收治的血液透析患者66例,分为研究组(高通量血液透析)与对照组(常规血液透析)各33例。
目的分析特定电磁波谱(TDP)治疗仪辅助治疗小儿支气管肺炎的临床效果。方法将160例小儿支气管肺炎患儿分为2组,对照组采取常规治疗,试验组在对照组基础上利用特定电磁波谱治