基于视觉的网页噪音识别与清除关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:alexshinichi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪人类迈入了高度信息化时代,互联网的不断发展促使其成为了最为重要的信息传递途径之一,成为人们最广泛的信息来源。网页中很多与主题内容不相关的内容,通常称之为网页噪音信息。网页噪音通常围绕于主题内容的四周,占用网页正常的显示空间,使得Web页面的主题内容很不清晰。这会影响用户在进行网页浏览时候对主题内容的查找速度,也会导致浏览器加载过多的无关内容而产生时间的延迟。由此便引申出对网页噪音清除的相关研究和技术开发。网页噪音清除技术致力于将网页中原本混乱的结构、赘余的内容、错乱的排版显示以及不相关的无用信息进行结构化、清晰化、条理化,并且去除无用的信息。因此,提高识别和清除Web页面噪音清除技术,使网页主体内容更为清晰明确已经成为人们日益关注的焦点,Web页面噪音的有效识别以及去除已然成为了Web挖掘中一个亟待解决的问题。本文主要介绍了Web信息挖掘中重要的一个方面——网页噪音清除的研究价值及意义,并阐述了目前已有的网页噪音识别与清除技术上的优点和缺点。根据目前商业网页的设计以DIV+CSS为主要布局,提出了一种新的网页分割模型DIV_DOM模型。通过此模型,构建出基本DIV数据块,实现对整个Web网页的逻辑划分。论文中还研究了基于此模型的网页噪音清除算法,此算法根据Web网页噪音的布局规律,总结其特点,并制定出噪音的评判标准,通过设置不同的权重值来评判不同页面数据块的重要性,识别和清除噪音数据块,保留主题数据块,实现对网页的净化。为了保证在对网页噪音信息的去除过程中用户的视觉无感性,本文还提出基于寻找相似数据块的视觉无感网页噪音过滤算法。该方法主要依赖于构建的DIV_DOM模型,当DIV_DOM树中噪音数据块存在相似数据块或者相似节点时,去除噪音数据块是不会导致网页变形的。论文的最后是通过对各大主流的网站上进行实验测试,验证其效果及通用性。实验证明该方法具有良好的去除网页噪音效果,并保证网页的视觉无感,同时该算法也具有比较广泛的适用性。
其他文献
相比热阴极,碳纳米管冷阴极具有更小的体积,在室温条件下工作,低制作成本等优点。利用碳纳米管冷阴极研制小型化电真空器件已成为研究工作者的重点关注领域。本文针对毫米波
激光淬火是应用于曲表面硬化的一种常见的热处理工艺,在高功率激光作用下材料表面微观组织发生相变,表面硬度及残余应力分布均发生变化。通过对表面硬度及残余应力分布进行检测,可以对激光淬硬工艺及曲表面材料性能进行评价。磁巴克豪森噪声信号(Magnetic Barkhausen noise,MBN)对铁磁性材料的微观结构及残余应力变化非常敏感,发展面向曲表面的磁巴克豪森噪声扫查实验方法,可以快速实现对激光淬
工程中,汽机基座作为承载上部机组设备的重要依托,因其受力的特殊性和结构的复杂性,在设计时会对基础的动力特性和抗震安全性提出较高的要求。事实上,针对装机容量在百万千瓦
锂离子电池由于其可重复使用性较高及污染性较低等优势,已逐渐成为当前主要的能源研究热点。其中,正极材料是影响锂离子电池应用的关键因素,开发更高比容量和更稳定的正极材料是当前锂离子电池的研究重点。由于富镍系镍钴锰氧化物LiNi0.5Co0.2Mn0.302(NCM523)具有较高的比容量(理论比容量约280 mAh g-1),因而被看作是下一代主流的正极材料之一。然而LiNi0.5Co0.2Mn0.3
本研究的目的是探明莱芜黑兔与伊拉肉兔在屠宰性能、肉质方面以及莱芜黑兔与四川白兔、福建黄兔、闽西南黑兔、日本大耳、新西兰兔、加利福尼亚兔、长毛兔、獭兔等品种兔在遗
目的:观察沉默信息调节因子(silent information regulator,SIRT)在慢性氟中毒大鼠脑组织及经氟处理的SH-SY5Y细胞中的表达,探讨其对实验性氟中毒神经损伤的保护作用。方法:
好意同乘致同乘人损害赔偿案件已经成为道路交通事故损害赔偿案件中的一个重要类型,但理论上仍然存在争议,实务中裁判也多有分歧。刚刚通过的《民法典》将“好意同乘条款”写入了侵权责任编,在这一背景下,对好意同乘致同乘人损害的事实认定、法律性质、请求权基础、责任承担等再界定,对今后统一司法适用具有重要意义。好意同乘不同于合同或无因管理,属于不具有法律效果意思的情谊行为范畴,在造成同乘人损害时就转变为侵权行为
本课题的目的是测定大蒜秸的化学成分,评定大蒜秸的营养价值,研究日粮大蒜秸水平对生长肉兔生产性能、肌肉胴体品质、代谢指标、胃肠道发育及免疫器官生长发育等指标的影响,
V型双钢拱塔斜拉桥以造型优美、跨度大等优点,在城市桥梁中得到了广泛的认可,与常规斜拉桥相同,拉索作为该类桥梁的主要受力构件,直接布置在主梁和索塔的外部,车辆冲击、疲劳和腐蚀等均可能导致拉索严重损伤;此外,在火灾、暴风等极端情况下,拉索很容易断裂,继而威胁到桥梁的安全,而当前针对该类桥梁拉索损伤断裂的研究非常有限。为保证该类桥梁运营期间的安全,很有必要研究索系损伤对该类桥梁力学性能的影响规律。本文以
目前,随着开放网络的发展,网络环境呈现出开放性、共享性、动态性等特点。开放的互联网环境为人们的网络生活提供了诸多便利,如网络购物、即时通讯、博客论坛等方方面面。互