基于结构与内容的Web主要信息提取方法研究

来源 :计算机工程与设计 | 被引量 : 2次 | 上传用户:qinxueqiQQ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。
其他文献
医院新来的团委书记和青年们谈心。第二天青年小李向她转告大伙的意见:“婴儿呱呱坠地,‘瓜瓜’坠地二字你怎么读成‘咕咕’呢?”团委书记首先感谢大家的好意,称赞他们有啥说
我国现行以答辩委员会和学位论文评定委员会为二级审查主体,以课业完成情况、学术水准和道德品质为审查内容的学位授予审查制度存在审查权限不清、自制的规则与上位法相违背
钇铝石榴石Y3Al5O12(YAG)具有优良的物理和化学性能,被广泛用作激光和发光的基质材料。这类材料的合成通常是采用高温固相反应后再经球磨粉碎,反应温度高(>1400℃),产物粒径偏大且粒度分布宽,也不易得
OpenGL自身不能直接计算Phong明暗处理,而Phong明暗处理是一种能产生较真实高光的明暗处理方法。通过分析OpenGL的标准图形渲染管道及Phong明暗处理的算法,采用软件实现了OpengGL标准渲染管道和光栅化的算法,替换了OpenGL硬件渲染管道和硬件光栅化部分,进而能直接实现片元级的Phong明暗处理。实验结果表明,Phong明暗处理能反映顶点间颜色值的变化。
介绍了组合密钥算法(CPK)的原理,提出了基于CPK的标识认证系统的一种构建方法。通过使用基于标识的组合映射算法的密钥管理方法,实现了规模化的密钥管理和独立于第三方的身份认证
“四两拨千斤”本是武术中的一着奇招,其奥妙就在于借力打力、因势利导,也就是凭借客观上存在的势而导之。以四两之轻拨千斤之重,显然需要有“因”的智慧和“导”的技巧。既
城区党委领导经济工作的水平和力度如何,直接影响着该区经济发展的速度。因此,如何加强和改善对经济工作的领导,应当成为城区党委认真研究与解决的一个重大课题。根据多年来
数字信息资源正日益成为信息资源的主体,成为各种信息资源中最重要、最活跃的一种。本文就农业高校图书馆数字资源建设的目标、内容与原则进行了探讨,提出了今后图书馆数字资
研究生培养有三个层面:第一个层面是技术层面,即培养学生发掘和利用材料的能力,写出合格乃至优秀的学位论文;第二个层面是理论层面,即培养学生理论思辨的能力,并将这种能力融
一、领导的定义什么是领导?我以为应作如此定义:领导就是在一个相对独立的系统,具有通过以组织为载体,实现某种系统思想权力的组织或个人。为什么要这样界定这一概念呢? 首先