基于结构与内容的Web主要信息提取方法研究

来源 :计算机工程与设计 | 被引量 : 2次 | 上传用户：qinxueqiQQ

【摘要】

：

Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。

【作者】

：

张文东李伟

【机构】

：

中国石油大学计算机与通信工程学院

【出处】

：

计算机工程与设计

【发表日期】

：

2008年24期

【关键词】

：

WEB页面内容结构分块信息提取 web pages content structure blocking information extraction

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

“呱呱”与“咕咕”

医院新来的团委书记和青年们谈心。第二天青年小李向她转告大伙的意见:“婴儿呱呱坠地,‘瓜瓜’坠地二字你怎么读成‘咕咕’呢?”团委书记首先感谢大家的好意,称赞他们有啥说

期刊

团委书记青年们二字错读李向曲字列人李曾了明

我国现行学位授予审查制度的反思与修正

我国现行以答辩委员会和学位论文评定委员会为二级审查主体,以课业完成情况、学术水准和道德品质为审查内容的学位授予审查制度存在审查权限不清、自制的规则与上位法相违背

期刊

学位授予审查制度学术自治特别权力关系重要性理论

用溶胶——凝胶法合成Y3Al5O12：Eu^3＋磷光体

钇铝石榴石Ｙ３Ａｌ５Ｏ１２（ＹＡＧ）具有优良的物理和化学性能，被广泛用作激光和发光的基质材料。这类材料的合成通常是采用高温固相反应后再经球磨粉碎，反应温度高（＞１４００℃），产物粒径偏大且粒度分布宽，也不易得

期刊

溶胶凝胶法磷光体铝酸钇掺铕晶体

基于OpenGL的Phong明暗处理软件实现

OpenGL自身不能直接计算Phong明暗处理,而Phong明暗处理是一种能产生较真实高光的明暗处理方法。通过分析OpenGL的标准图形渲染管道及Phong明暗处理的算法,采用软件实现了OpengGL标准渲染管道和光栅化的算法,替换了OpenGL硬件渲染管道和硬件光栅化部分,进而能直接实现片元级的Phong明暗处理。实验结果表明,Phong明暗处理能反映顶点间颜色值的变化。

期刊

OPENGLPhong明暗处理片元渲染管道OpenGL Phong shading fragment rendering pipeline

CPK标识认证系统的设计及实现

介绍了组合密钥算法（CPK）的原理，提出了基于CPK的标识认证系统的一种构建方法。通过使用基于标识的组合映射算法的密钥管理方法，实现了规模化的密钥管理和独立于第三方的身份认证

期刊

组合密钥标识认证密钥管理椭圆曲线算法CPK identity authentication key management ECC

巧用“四两拨千斤”

“四两拨千斤”本是武术中的一着奇招,其奥妙就在于借力打力、因势利导,也就是凭借客观上存在的势而导之。以四两之轻拨千斤之重,显然需要有“因”的智慧和“导”的技巧。既

期刊

激水借力打力漂石因势导之协同动作部监骨牌效应投资效应卫星发射

城区党委如何加强对经济工作的领导

城区党委领导经济工作的水平和力度如何,直接影响着该区经济发展的速度。因此,如何加强和改善对经济工作的领导,应当成为城区党委认真研究与解决的一个重大课题。根据多年来

期刊

区街经济经济发展战略地区实际情况地区经济房地产开发业创见性产业支柱职能要求党的领导引导作用

农业数字信息资源建设的原则与策略研究

数字信息资源正日益成为信息资源的主体,成为各种信息资源中最重要、最活跃的一种。本文就农业高校图书馆数字资源建设的目标、内容与原则进行了探讨,提出了今后图书馆数字资

期刊

农业高校图书馆数字资源建设原则发展策略agricultural university library digital resources constru

研究生培养的三个层面

研究生培养有三个层面:第一个层面是技术层面,即培养学生发掘和利用材料的能力,写出合格乃至优秀的学位论文;第二个层面是理论层面,即培养学生理论思辨的能力,并将这种能力融

期刊

研究生培养技术层面理论层面思想层面

对“领导”概念的探讨及建立狭义领导学的构想

一、领导的定义什么是领导?我以为应作如此定义:领导就是在一个相对独立的系统,具有通过以组织为载体,实现某种系统思想权力的组织或个人。为什么要这样界定这一概念呢? 首先

期刊

领导学领导行为高层领导者应作领导群体管理行为理论特色理论学科逻辑联系历史认识

基于结构与内容的Web主要信息提取方法研究

与本文相关的学术论文