基于HTML网页的Web信息提取研究

被引量 : 0次 | 上传用户:mi33123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息提取是指从Web文档中自动提取感兴趣信息的过程。它主要用在元搜索、信息代理等场合。本文首先介绍了信息提取技术及其产生背景和发展历史,分析了信息提取系统体系结构和关键技术。对Web信息提取的途径、主要学习算法、评价标准等进行了相关阐述。对Web信息提取采用一种基于知识领域的过滤作为其预处理。该体系主要分为两部分:一部分是基于专家给出的规则通过规则匹配对大量网页进行估测并选出特定领域的网页。第二部分是对于已经在第一步过滤出的网页进行URL聚类,从而得到用于信息提取的网页。以新闻网站的过滤作为具体实例。提出了一种针对互联网中大量存在的模板网页主题信息进行快速提取的方法。该方法的主要特点为: 1)直接对主题信息进行提取,而不需要通过去除网页噪音的方式来提取主题信息; 2)对同模板产生的大量网页,通过机器学习生成模板后,便可直接提取网页主题信息,而不需要对每一个网页都进行分析处理;3)以新闻网页的提取为例分析该方法的具体使用。提出基于主题的Web信息提取系统模型,主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行提取的行为。论文中给出了该提取系统的框架模型,分析了系统中各功能模块的实现原理,并对主题信息的提取进行了详细阐述。
其他文献
装配式建筑是目前我国兴起的最为先进的一种建筑模式,其降低了施工成本的支出。文章对装配式建筑施工质量控制及其管理的措施和原则进行了简要的分析,旨在提升我国装配式建筑
网络中的不正当竞争问题因其具有不同以往的高技术性且难以被现有法律规制等特点,业已成为我国法律发展完善过程中急需解决的关键性问题。在研究这一问题的过程中,本文立足于
汉语虚词是一个十分重要的词类,其意义和用法十分复杂.在<诗经><楚辞>等先秦诗歌里,许多虚词并不象人们一般理解的那样都有语法意义和语法作用,其中一部分虚词在诗歌中只有修
“五四”时期,“感伤”情调作为一种重要的精神标记和心理氛围,普遍地弥漫在文坛各流派和社团的作家作品中。由于“感伤”更多地是与一种浪漫的诗性联系在一起,因而它成为“五四
<正>新生儿黄疸是指新生儿时期,由于胆红素代谢异常引起血中胆红素水平升高而出现于皮肤、黏膜及巩膜黄疸为特征的病症。早期新生儿高胆红素血症如观察治疗不及时,有可能引起
技术性贸易壁垒由于具有隐蔽性较强、透明度较低、不易监督和预测等特点,成为现代各国尤其是发达国家设置贸易障碍,推行贸易保护主义最有效的方法之一。技术性贸易壁垒在国际
目的探讨经皮椎体后凸成形术(percutaneous kyphoplasty,PKP)在治疗伴椎体内裂隙样变的骨质疏松性椎体压缩骨折(osteoporotic vertebral compression fractures,OVCFs)中的临
利用陕西省自动站实测的降水资料和美国国家环境预测中心提供的NECP/NCAR再分析资料,对2011年9月3—20日陕西省强秋淋天气的环流特征和动力热力学结构进行了诊断分析。结果表
随着科学技术的发展,普适计算的概念已逐渐被人们接纳。如果说普适计算指出了计算机未来发展的一个方向,那么可穿戴计算就是这个方向上的一条大道。普适计算旨在使计算机融入
中药猫爪草(Ranunculus ternatus Thunb.)始载于《中草药手册》,系毛莨科植物小毛莨的块根,具有解毒、化痰散结的功能,主治瘰疬、结核、咽炎等。猫爪草药材主产于河南省信阳的驻马