WEB代理系统网页噪音信息识别与过滤技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yao_huaxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术日新月异飞速发展,互联网上信息数量也在急剧增长。目前很多自动化应用能够帮助我们从互联网上的海量数据中提取出我们所需的内容,可是网页信息不仅包含网页本身的主题信息,往往还包含导航条、网页广告链接信息及相关推荐这类与主题并不相关的内容,即噪音信息。这些信息不仅影响用户的阅读体验,而且可能造成网页主题偏移,影响数据挖掘和搜索的速度与准确率。因此,研究和实现高效、实用的web网页中广告等噪音信息的过滤技术无论是在数据挖掘及web信息检索方面,还是在提高用户阅读体验方面,都具有相当重要的意义。网页的语言形式和语法等特性都与传统的语言相比存在很大的区别,因此网页噪音信息过滤技术更加繁杂,需要考虑的因素也更多并且更具挑战性。本文基于以上背景,提出了一种新的基于视觉属性分析的网页噪音信息识别与过滤算法。本文首先对目前主流的网页去除噪音方法进行分类并进行了分析研究。接着分析研究了具有代表性的各大门户网站的新闻网页中噪音信息的特点,并在此基础上提出了基于网页视觉属性与内容规则的噪音识别算法。该方法首先对网页文档中注释等无用信息进行过滤,并将文档构建成特殊的基于网页视觉属性分析的文档对象模型WVP_DOM树,接着划分树中的块结点信息确定最可能出现噪音信息的区域,跟据区域中的标点符号及超链接正文比,进一步判断该块是噪音块还是主题块。然后为保证网页噪音信息准确过滤并不影响用户的阅读,本文提出基于树结构相似性的网页不变形噪音过滤算法。该方法主要思想是在网页转化成的WVP_DOM树形结构中滤掉存在相似兄弟结点的结点时,网页是不会发生变形的。最后在WEB代理系统上验证该方法的实验效果及通用性。实验证明该方法能够较好的去除网页上的噪音信息,并保持网页不变形,同时该方法具有较好的通用性。
其他文献
现有的视点规划方法均基于单分辨率测量系统,这导致在三维重建过程中需要在重建效率和重建保真度之间折中选取。因此,在重建过程中会出现以下两种情况:低分辨率重建时,系统测
近十几年来,随着信息技术的发展,人们生活水平的提高,在安防监控、游戏开发、影视制作、人机交互等领域,对于获得更加细致、逼真的三维人脸模型有着强烈的需求。为了克服传统
近年来,我国公路运输系统不断完善,多车道高速公路已成为我国高速公路建设的重要发展趋势。随着车辆性能的提高和车道管理方式的多样化,“以人为本,安全至上”的理念受到广泛关注。视距作为高速公路行车安全的重要指标,引起广大研究者重视。本文以多车道高速公路为研究对象,对停车视距的影响因素及计算模型进行深入研究。结合我国多车道高速公路车道管理方式,本文界定研究对象为整体式断面的双向六车道以及八车道高速公路,并
计算机视觉是人工智能领域的研究热点,双目立体视觉作为计算机视觉的一个重要分支,使计算机通过模拟人眼视觉系统来感知现实世界,是获取现实场景深度信息的一个重要手段;在视
随着本体在知识管理、语义Web和人工智能等领域应用前景的进一步明朗,越来越多的本体涌现。与此同时,各领域的研究者和应用者根据特定目的所构建的不同本体间的异质问题也越
随着生物医学的迅猛发展,医学文献呈现指数级、爆炸式的增长趋势。面对医学文献这座巨大医学知识宝库,对医学文献知识的挖掘越来越重要。其中医学文献风险知识的抽取是现在极
气候变暖的加剧,使碳排放问题受到国际社会的普遍关注,作为全球最大的碳排放国,我国面临巨大的减排压力。建筑业在我国国民经济中发挥重要支柱作用,为上下游关联行业提供拉动
随着社会信息化技术的快速发展和进步,图像中包含的信息的作用越来越不容忽视,人们通过对图像进行合适处理,就可以获得想要的信息。图像矩是可以描述图像全局特征的矢量积,图
急性髓系白血病(Acute Myeloid leukemia,AML)占成年人急性白血病的80%左右。现行AML治疗多采用以阿糖胞苷为基础的联合化疗方案,完全缓解率在70%左右。但是,化疗药物的攻击
重载齿轮是大型机械装置(推土机、挖掘机、装甲车等)传动系统的核心部件,它的主要功能是按照规定的转速比传递运动和转矩。在重载齿轮疲劳性能研究中,相对于接触疲劳产生的齿面点蚀、胶合、磨损等微小破坏而引起齿轮传动效率降低,啮合不到位等现象;弯曲疲劳则会直接导致齿根产生裂纹甚至形成断齿现象,造成重大事故。而在工程结构和机械设备使用过程中,齿轮要承受大量的循环往复交变载荷,使得弯曲疲劳失效现象极为普遍,这就