一种基于位置信息的Web页面分割方法

来源 :计算机应用与软件 | 被引量 : 7次 | 上传用户：MSYANXU

【摘要】

：

提出并实现了一种针对HTML文档的页面分割方法,其目的是为了能有效提取新闻网页的正文以进行数据挖掘。基本思想是通过模拟网页浏览器的部分渲染工作,来还原HTML文档中每个标签在浏览器窗口上的显示位置,并以此对页面分割,用于提取一些重要区域的信息。在实验中,对10多个知名新闻站点如新浪、网易、TOM新闻等,利用这一方法提取其网页中的新闻正文,准确率在88.5%左右,表明了这一方法的有效性和可行性。

【作者】

：

陈翰生曾剑平张世永

【机构】

：

复旦大学计算机与信息技术系

【出处】

：

计算机应用与软件

【发表日期】

：

2009年07期

【关键词】

：

网页分割 HTML文档网页浏览器信息抽取 Page segmentation HTML document Web browser Informatio

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

影响一代人的欧美神剧

《吸血鬼日记》历时五年多,已播出100多集。在美剧的排行表上,它多次＂完爆＂《行尸走肉》和《生活大爆炸》。《吸血鬼日记》究竟具有怎样的魔力,可以热播百集＂高烧＂不退呢？内在的光

期刊

神剧魔鬼身材现实生活生日礼物NINA伙伴们静如处子PHOEBE实女选美比赛

基于SIFT特征的地貌图像匹配研究

求解地貌图像匹配点对是地貌反求测量过程中的核心问题之一。针对地貌图像的特点,选用基于SIFT特征图像匹配算法,并根据其算法特点在Vc++环境下编写了匹配程序。对地貌模型图像在视角变化、光照不一致等情况下,进行大量实验表明,该方法具有稳定、快速、高效的特点。

期刊

地貌图像SIFT特征图像匹配Landform image SIFT （Scale invariant feature transform） Image m

攀岩：挑战你的了不起

其实攀岩就跟人生一样，总有一个点你迈不过去，即使勉强迈过去了，你也抓不牢！怎么办呢，幸亏有安全绳能让你安全着陆！掉下来后重新选择路线吧……大概这正是年轻的孩子所持有的心态吧，犯了错误，重新再来，我们不怕摔倒，我们害怕摔倒之后没有勇气再继续前进，这不也正是“00后”许多孩子热爱攀岩的原因吗？　　想跑得更快、想跳得更高、想投得更远……不管任何运动，都起源于人类如此简单的欲望。尤其爬上高树的刺激感与快感

期刊

安全绳选择路线继续前进所持

基于本体的垂直搜索引擎研究

随着网络的飞速发展,人们对互联网信息检索的需求不断专业化、细致化,通用搜索引擎技术在一定程度上已经不能满足用户的搜索需求。与此同时,本体相关的技术在信息检索系统的研究越来越成熟。在本体相关技术的基础上,提出一种可以提高搜索效率的垂直搜索引擎构架,并着重对构架中的关键技术及其实现进行了研究。

期刊

本体垂直搜索语义相似查询扩展Ontology Vertical search Semantic similarity Query expansion

毕业礼，致敬同桌那些年

三国杀：送给同桌的你和你的同桌　　每到毕业季，同窗情谊在校园里倍显浓郁。　　高考在即，很多高中这两天都在密集举行毕业典礼，很多同学还制作了各种个性化的毕业礼物。北京四中的同学自制了一副由学校师生照片设计而成的“三国杀”纪念卡牌，四中校长刘长铭也被“设计”了进来，学生甚至还给校长配备了“校长办公会讨论决定”的特殊技能，游戏中一发动技能，对方就要掉体力。　　这副“三国杀”纪念卡牌，取名为“六班杀”，

期刊

北京四中毕业典礼天都六班成人礼北京语言大学我自己哲学课校史男性角色

来自“吸血鬼”的人格魅力

褐金色的头发,灰蓝色的眼睛,不是标准美男,却有着标准美男没有的独特气质。小说《暮光之城》系列风靡一时,爱德华也迷倒了万千fans。2009年,《暮光之城》拍成电影,出于对小说

期刊

人格魅力吸血FANS标准小说头发

朱元璋解决了化学元素中文命名问题？

在中国历代皇帝中，如果以文化程度由低到高来排名，出身贫寒，从没上过学的明朝开国皇帝朱元璋应该妥妥儿名列前茅了。但很少有人知道，他的一个举措，却给中国近现代化学事业做出了卓越贡献。　　看起未好像八竿子打不着关系，但很多化学元素的中文命名，必须感谢朱元璋。这得从他为后代起名的奇葩“家规”说起。　　朱元璋认为老朱家是皇室贵胄，起名可不能随便，于是他给子孙规定了一套命名方式。其中最独特一条：名字最末字，必

期刊

朱元璋命名问题化学元素中文文化程度化学事业近现代皇帝

001＊7强酸性苯乙烯系阳离子交换树脂在低压锅炉水处理上的应用

<正> 1 前言离子交换树脂用于杂质离子的除去、贵重金属的分离回收、催化、吸收、化学分析、医药生产等多种领域。其在水处理方面用量最大,约占总产量的80～90％。用于水处理的离

期刊

锅炉水处理苯乙烯离子交换树脂

交互式社会保险决策支持系统的研究与实现

社会保险事业关乎国计民生,采用三角式结构中的两库系统设计的"交互式社会保险决策支持系统(ISIDSS)",充分利用已积累的大量业务数据,为社会保险制度改革提供科学可靠的决策依据。介绍系统的逻辑结构、功能结构,讨论数据析取工具、数据仓库架构、模型库系统、自定义模型生成器等关键技术问题及解决方法。经实际应用,该决策支持系统取得了良好的效果。

期刊

社会保险决策支持系统数据析取模型生成器Social insurance Decision supporting system Data extracti

少年，热血正当时

《进击的巨人》第一季完结了，现在可以追什么动漫新番呢？呐，有没有听说《灌篮高手》重制版开始播映了？这是超经典漫画的高清版回归，它上世纪九十年代首播曾在日本创下21.4%收视纪录，而原著漫画仅在日本本土就累计发行达1.7亿册，是陪伴了小编这一代人整个青春的神作。　　如果你也看过《黑子篮球》或者《网球王子》，如果你喜欢热血动漫，那你一定会喜欢它。　　现在让小编和大家的青春来个无缝对接吧，代沟神马的（什

期刊

少年漫画日本

一种基于位置信息的Web页面分割方法

与本文相关的学术论文