基于正文特征和网页结构的网页正文抽取方法

来源 :大气与环境光学学报 | 被引量 : 0次 | 上传用户:sjzm2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。
其他文献
<正>一、前言 自从Brooks和Taylor于1965年揭示了沥青中间相(液晶态)小球体的存在以来,国内外学者在碳素物质中间相研究方面取得了十分重要的成果。人们在研究沥青中间相的同
自20世纪80年代末90年代初以来,纪录片在中国开始走向了一个新的"时代",也就是开始独立制作的时代,制作这个特殊群体也已成为中国纪录片创作中一支不可忽视的生力军,这就为中
阐述油中气泡对500kV断路器液压机构的影响,通过分析一起断路器拒合事故,提出相应的防范对策。
热质交换原理与设备是一门介于专业基础课与专业课之间起桥梁纽带作用的课程,它既不等同于一般的基础课,也不等同于具体的专业课。该课程包括原理部分与设备部分,原理部分理
微机动态轨道衡的检定不但是对使用中的动态轨道衡进行的一次检测、而且是检验其是否合格的唯一标准,检测数据是全面评价微机动态轨道衡性能指标的重要依据,而通过对数据处理和
基于耕地安全系统理论和耗散结构理论,构建了耕地安全系统演化分析的指标体系,建立了评估耕地安全系统演化的量化模型。应用该模型纵向评价了江苏省1998年~2004年耕地安全系统演
随着社会经济的不断发展,现代园林建设同样取得了长足的发展和进步,园林逐渐形成了其本身独立的文化,并在发展的过程中融合了现代的社会文明,但在发展的同时,园林工程的管理
<正>突如其来的新冠肺炎疫情,是对国家治理体系和治理能力的一次大考。作为治国理政重要工具和引导舆论须臾不可或缺的重要力量,新闻媒体尤其是主流媒体,面对在复杂舆情中打
作者通过现场调研国内部分有特点的典型隧道,研究了国内隧道施工中目前采用的预警方法,包括地质分析法、物探法、监控量测和计算机模拟的方法。总结了隧道事故发生后,目前国
数学教学主要就是解决"理",即讲理、悟理、明理.讲理就是指教师要把书本上的知识讲清,讲透,抓好基础知识,培养学生数学能力.悟理指的是让学生自己悟出道理.明理指的是让学生