网页净化相关论文
信息技术的发展对全世界来说都产生了极大的影响,是当前高技术发展中的主流技术,因为信息在人类生活中无处不在,无时无刻的不影响着人......
搜索引擎的搜索结果包含了大量网页,用户如何从中快速获取所需信息是十分重要的问题。因此,研究人员提出对搜索结果进行网页自动分类......
互联网的飞速发展导致数字化信息呈爆炸式增长。搜索引擎作为帮助人们在海量信息中寻觅所需信息的工具,其重要性与日俱增。然而,由......
Internet已经成为最重要的信息库。浏览Internet会看到网页中会包含大量和我们关心内容无关的导航条、广告信息、版权信息、以及调......
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配......
互联网的迅速发展导致网上信息飞速增长,使得信息搜索变得非常困难。当前的搜索引擎在查找时仅仅采用机械的关键词匹配来实现,缺乏知......
互联网的迅速发展导致网上信息飞速增长,形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前,WEB已......
本文介绍了网页净化相关技术及其在Web信息挖掘中的重要作用,研究分析了网页分割模型的优势和不足。提出一种新的网页分割模型DSS_D......
网页净化算法的目的是除去影响搜索引擎获取网页主题的噪音。本文提出一种基于局部语义的网页净化算法。算法遍历转化成DOM树后的......
为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在〈table〉标......
提出一种识别视频播放页,并从中抽取视频摘要信息的方法,播放页的自动识别是通过三个判定要素的运用来实现,播放页内摘要信息的抽取是......
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的......
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签......
描述了一个完整的中文网页分类系统的设计和实现过程,重点介绍了网页分类中的网页净化、特征加权、KNN分类等关键技术.并结合网页的......
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser......
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层......
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而......
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内......
随着互联网的快速发展与搜索引擎的广泛使用,网页数据已经成为各种应用与研究的重要数据源之一。然而由于网页的特殊性,它所包含的信......
Web网页中的"噪音"是影响基于网页内容的Web应用系统工作质量的一个重要因素,快速准确地清除网页中的噪音内容是提高Web应用服务质......
网页内容提取对Web中的Hub型网页和主题型网页有不同的含义。对前者是找到该网页中非噪音内容的主要链接;对后者是发现描述网页主......
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系.根据LSA理论提出了一种多层次web文本分类方法.建立......
大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性......
万维网(Web)是世界上规模最大的公共数据源,但Web上信息资源的有效利用是一个难点。Web信息资源大多以HTML文档形式存在,HTML文档......
在这个信息的时代,网络信息量急剧增加,像百度、Google等通用搜索引擎越来越体会到庞大数据库所带来的查找速度慢、硬件要求高等压......