一种基于分类算法的网页信息提取方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：CANDICE301

【摘要】

：

在目前的web信息提取技术中，很多都是基于HTML结构的，由于HTML结构的经常变化，使提取模板需要经常更新，而提取模板的更新需要很多领域知识。本文提出一种基于分类算法的web信息提

【作者】

：

汪建伟杨冬青高军王腾蛟

【机构】

：

北京大学信息科学技术学院,军事交通学院

【出处】

：

计算机科学

【发表日期】

：

2008年3期

【关键词】

：

信息提取属性向量 WRAPPER 显示属性 Web information extraction Attribute vector Wrapper Displ

【基金项目】

：

基金资助：国家242基金（课题编号：20051322,2006820）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在目前的web信息提取技术中，很多都是基于HTML结构的，由于HTML结构的经常变化，使提取模板需要经常更新，而提取模板的更新需要很多领域知识。本文提出一种基于分类算法的web信息提取方法，通过将网页文本按照其显示属性的不同进行分组，以显示属性值为基础对Web页面文本进行分类，获取所关注文本，从而完成对Web页面的信息提取。这种提取方法操作简单，易于实现，对网页结构的依赖性小。

其他文献

基于分箱统计的FCM算法及其在网络入侵检测中的应用

使用KDDCup99网络入侵检测数据，对传统的FCM（Fuzzy C-Means）算法进行实验，发现该聚类算法在进行聚类划分和孤立点判断时，存在划分粗略性现象。针对该问题，本文提出使用分箱统计的FC

期刊

FCM算法分箱统计特征匹配协同检测FCM algorithm Based on statistical binning Statistics Fe

一种基于模糊评判规则的P2P流识别算法

针对难以将那些协议未公开、特征不明显的P2P应用识别出来的问题，本文首次将模糊数学理论应用在P2P流的识别中，提出了一种基于模糊评判规则的P2P流识别算法FJRRA。该算法首先对

期刊

P2P流识别算法模糊评判SKYPEP2P flow Recognition algorithm Fuzzy judgement Skype

基于遗传算法的传感器网络动态联盟研究

动态联盟又称“虚拟企业”，是一种企业管理手段。它指一些相互独立的商业过程或企业组成的暂时联合。这里，把其理念应用于无线传感器网络中随机散布模式的节点动态组合研究，并基

期刊

遗传算法动态联盟无线传感器网络Genetic algorithmsDynamic allianceWireless sensor networks

一种基于NAMPD的快速图像分割

非对称逆布局模式表示模型(Non-symmetry and Anti-packing pattern representation Model,NAM)借助布局问题的思想,使用一个子模式集合来表示原模式。基于NAM模型,提出了一种灰度图像表示方法,非对称逆布局平面分解模式表示模型(NAM-structrued Plane Decomposition,NAMPD)。在NAMPD中,每一个子模式都对应

期刊

非对称逆布局模式表示模型布局问题图像表示图像分割Non-symmetry and anti-packing pattern representation

如何提高英语课堂效率

提高英语课堂效率的方法很多，但最主要和最根本的还是在课堂上为学生创设更多和谐、愉快的教学情境，激发学生的兴趣和想象力，发展学生的个性，从而真正提高学生的英语语言综合运用

期刊

英语课堂效率培养兴趣

新媒体时代广播电视编导的创新思维

在经济发展、科技进步的大环境下,我国各行各业都需要适时发展、不断创新,以顺应时代发展潮流,更好地满足社会大众的新需求,广播电视编导也是如此。新媒体时代在给广播电视编

期刊

新媒体时代广播电视编导创新思维

四川农区牛粗饲料资源开发利用现状分析

粗饲料是肉、奶牛主要的饲料来源,在牛营养体系中占有重要位置。作为反刍动物,为保持瘤胃健康和正常的乳脂率,牛日粮中必须有一定量的粗饲料。目前,四川地区牛粗饲料主要为农

期刊

饲料营养价值秸秆利用率饲料供应饲料来源饲料资源优质牧草天然牧草乳脂率

大革命时期滕代远领导长沙郊区农民运动

滕代远是老一辈无产阶级革命家，是中国工农红军创始人之一，也是中华人民共和国成立后的第一任铁道部部长。　　1926年夏，滕代远由中共湖南区执行委员会派到长沙近郊开展农民运动。来到长沙后，他便扎根于群眾中，开展一系列工作：组织农民支援北伐战争;深入各个乡村发展党员，培养农协骨干;加强农协纪律，巩固农协组织;反对封建恶习，维护妇女权益;发展生产，维护农民利益。　　1927年5月21日晚，长沙发生了血雨腥

期刊

郊区农民滕代远大革命时期发展党员农协妇女权益铁道部部长中国工农红军

地理教学激发学生学习兴趣的尝试

“哪里具有兴趣，哪里就长出知识的大树”。我们要充分利用新课程为我们提供的广阔天地，从不同的方面渗入新的教学和学习理念，激发学生的求知欲，把地理学习作为一种快乐的学习体验

期刊

地理激发学习兴趣

强化数学思想方法教育,做教学的有心人

摘要：在新课标课程改革的大背景下，新的《课程标准》突出强调：在教学中，应当引导学生在学好概念的基础上掌握数学的规律（包括法则、性质、公式、公理、定理、数学思想和方法）。因此在初中的数学教育当中，开展数学思想方法教育是新课改教学要求中的重中之重。关键词：数学思想方法；重培养；逐层深入；各个击破中图分类号：G623．5 文献标识码：A 文章编号：1006-3315（2011）6-024-001

期刊

数学思想方法重培养逐层深入各个击破

一种基于分类算法的网页信息提取方法

其他学术论文