教育新闻网页信息抽取系统的设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xuxiaohua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网是世界上最丰富和最密集的信息来源,近年来随着网络信息爆炸式的增长,Web新闻网页信息已成为人们获取信息的主要渠道。如何在海量的信息网页中快速找到用户需要的网页就成为了信息处理领域的一个研究热点。本文主要是面向教育新闻网页,着重解决信息抽取系统对网页关键信息的抽取方法的问题,在此基础上,设计并实现了一个教育新闻网页信息抽取系统,帮助用户根据网页关键信息来方便、快捷的查找到所需的教育新闻。本文在对网页进行信息抽取前,利用网页结构特征对网页进行分块。首先,按照HTML语言中的<div>和<table>标签以及一些简单的启发式规则把网页分为不同的块;然后根据每一块的特点来把网页分为不同的区域,如导航区、超链接区、页脚区、非显示区、正文区等。把不包含网页关键信息的区域从网页中去除掉,剩下的就是我们所需的网页关键信息所在的块,也就是下一步信息抽取操作处理的对象。对网页的信息抽取方法模块,本文采用了两种方法:一种是基于启发式规则的方法,主要是通过对大量教育新闻网页的结构及信息所在标签的特征进行统计分析,总结出这些信息所在位置及标签的一般特点,把这些特点作为信息抽取的规则来对网页进行信息抽取,该方法对小范围内的新闻网页抽取精确度高、速度快,但是不具有很好的可扩展性;另一种方法是基于HMM的信息抽取方法,该方法具有很好的可扩展性,但是由于需要对样本进行标记和学习来建立信息抽取模型,所以抽取速度不及第一种方法。本文结合两种方法的优缺点,对HMM样本的标记采用了基于启发式规则的方法来标记,并对网页按照启发式规则进行预处理,然后再使用HMM来进行信息抽取。通过对大量教育新闻网页的测试实验,结果表明对网页预处理方法、网页分块方法、基于启发式规则的信息抽取方法和基于HMM的信息抽取方法都是可行的,信息抽取的精确度和效率能够满足我们的实际需求,是具有实际使用价值的。
其他文献
分子克隆是研究细胞因子的重要手段。本文回顾了1988年以来新克隆的几种免疫活性细胞因子,包括IL-7、IL-8、P40蛋白、人白血病抑制因子(亦称白细胞介素DA)、巨噬细胞炎性蛋白
近年研究表明,多种细胞因子对ECs的结构和功能有重要影响.IFN-α,β促进ECs表达MHC-I类抗原;IFN-γ诱导ECs表达MHC-Ⅱ类抗原;TNF,IL-1和IL-4诱导ECS表达多种细胞粘附分子,并
近年来,我国工程质量和安全问题越来越多,由于监督管理工作不到位,导致人民群众的生命安全受到了严重威胁,目前市政工程质量逐渐成为市政工程建设管理的重点内容,在很大程度
目的:通过对我国东部地区6家中医院儿童肺炎中医证型及相关因素的整理,探讨儿童肺炎中医证型与患儿年龄、性别、地域、病原及主要初始症状等因素的相关性,为儿童肺炎中医特色辨
市政工程的建设和发展不仅要注重发展效率,更要注重生态环境的保护,维护生态环境的平衡,促进城市的可持续发展。然而,在市政工程建设过程中,仍然存在着许多污染问题,对市政工
<正> 一、研究背景作为一个地域辽阔,人口众多的发展中国家,中国在交通和邮电事业的发展上都落后于一些发达国家。从表1给出的数字可看出这种情况。从旅客运输的情况来看,虽然我国的旅客运输周转量的绝对数较大,但人均出行率则远低于其他发达国家,特别是航空等先进的旅客运输方式在中国还很落后;从邮电的情况来看,无论在邮电通讯的业务量方面,还是在通讯设备的普及程度方面,我国均远落后于发达国家,1986年我国平均每百人仅拥有电话0.75部,远低于全世界1983年就达到的平均每百人12部的水平。
<正> 分析模型和决策模型是两种既互相联系又互相区别的经济计量模型。本文讨论了这两种模型的特点和功能。研究和经验表明,在有计划的商品经济条什下,决策模型是政府制定经济规划时的有用工具。
<正> 中国数量经济学会成立已五年多了。如果从它的前身中国经济数学方法研究会算起,则有九年之久了。这些年来,我们的学会组织了许多学术活动。其中年会(每二、三年一次)除总结学会工作和改选学会领导机构外,同时也是一种最主要的学术活动形式。我们已经开过两次年会,1987年是第三次。
电气系统对于现代建筑来说,可以说是“心”一样的存在,起着不可或缺的作用。因此,电气施工的质量非常重要,高质量的电气施工将使整个建筑能够安全使用。因此,为了使电气施工