基于HTML5语义化标签的Web文本提取技术

来源 :贵阳学院学报:自然科学版 | 被引量 : 0次 | 上传用户:gaoyeye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过研究新Web标准网页的数据结构,并在信息抽取技术的基础上,提出了一种基于HTML5语义化标签的网页正文提取技术。该技术能够有效的过滤掉与网页主题无关的噪音信息,从而能有效提取有价值文本信息。
其他文献
【正】 《经济信息概论》是中央电大经济信息管理专业的必修课程之一。为了帮助同学们掌握该课程的主干内容,完成课程教学计划和教学大纲规定的任务.本文拟就该课程的学习意
一、债券及其特性 债券是举债筹资金者收到提供资金者支付的借款后,给予债权人的债权证书,也是债务人开具的有期限的信用凭证,是一种有价证券。 从投资者的角度看,债券的经济
美国航空航天局(NASA)日前宣布,科学家首次实现模仿互联网的外太空网络通信。NASA“喷气推进实验室”(JPL)工程师利用“宽容间断网络通信”(DTN)软件,在2000万英里以外的太空探测器和
阿里巴巴集团7月7日表示,未来5年内将向其全资拥有的淘宝网(Taobao.com)投资人民币20亿元。
【正】 一、抽样的几个基本概念 1.全及总体和样本总体 全及总体简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体。全及总体单位数通常用大写英文字母N来表示
业主单位的项目负责人曲主任派代表去监理例会听会和通过会议纪要了解项目情况的做法,是与他职务相悖的、不负责任的行为。
启亚监理公司的项目总监蔡高工刚吃完早饭,就急急忙忙地往市政府办公大楼赶。因为上午九点市政府部门信息中心的金主任要主持召开项目会议,会议议程前两天就发给参会各方了,主要
应当由新型的扁平小组中心型流程式组织替代现有组织,应建立更富有弹性的流动型组织,提高组织的灵活性和工作效率。
苏晖的失败在于,他没有明白对于集团总裁,他只关注集团的主体业务,以及影响这些主体业务开展的因素。所以对于数据中心,他最关注的是系统的稳定,对于是否绿色不屑一顾是意料之中的
文章在分析国外PDA案例的基础上,从读者决策采购产生的背景、英国Nottingham Trent Universily PDA项目、国内高校图书馆实施PDA项目面临的问题等方面进行探讨,围绕促使PDA项目