基于机器学习的Web信息提取技术的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：hhbsoftware

【摘要】

：

机器学习的介入为Web信息的提取开辟了新的研究方向,其自适应机制能够较好的适应Web信息的动态性和松散性,使系统在提取Web信息时可根据反馈信息自动完成旧规则的修改和新规

【作者】

：

金莉

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2003年期

【关键词】

：

机器学习 Web信息提取 FOIL算法多策略学习填充标记

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器学习的介入为Web信息的提取开辟了新的研究方向,其自适应机制能够较好的适应Web信息的动态性和松散性,使系统在提取Web信息时可根据反馈信息自动完成旧规则的修改和新规则的推导.目前国内外对基于机器学习的Web信息提取有一些研究,但这些算法在实际应用中表现出种种缺陷,因此改进已有算法和提出新的算法显得尤为重要. 通过一定的分析和比较,给出了两种新的基于机器学习的Web信息提取算法并且对原有FOIL算法进行了有效改进,并在实验基础上对每个算法的性能进行了全面的分析和评估.针对FOIL算法在学习不相邻网页间复杂联系时表现出来的不确定性,提出了一种基于网页间联系的新的路径学习算法:多策略学习算法将多个学习算法相结合,解决了单一机器学习算法推导提取规则时的片面性问题,所得规则能更全面地反映Web信息的分布规律;基于模板填充标记的学习算法采用自底向上推导规则的模块层叠方法,通过在提取模板中填充一定数量的有助于识别信息类别的SGML标记,使算法能覆盖Web页中的不可见信息,可有效控制学习过程中信息的遗漏和溢出,实现智能化Web信息提取. 此外,将研究的算法应用于国家药品监督管理总局"Internet上药品信息及电子商务监管系统"的开发中,实验结果表明上述三种算法在信息查全率和提取精确度上较现有算法有较大的提高.

其他文献

信用卡电子支付协议及其实现技术研究

目前国内外的学者对信用卡电子支付协议做了大量的研究,并且有了很多成果已经投入实际应用,比如SET协议等等.鉴于该课题是为了给精伦电子公用多业务终端信用卡支付提供一种解

学位

电子商务信用卡电子支付协议公钥基础设施信任机制

面向开放文本的领域实体标签库构建与评价方法研究

随着互联网技术的迅速发展，网络数据的规模呈现着爆炸式增长。如何从规模庞大的网络数据中快速获取高质量的知识是目前亟待解决的一大问题。为此，需要构建面向开放文本的领域知

学位

开放文本领域实体标签库聚合方法量化评价

嵌入式蓝牙LAP系统研究与实现

嵌入式系统设计的挑战通常源于开发平台的专用性,系统各个部分的有机组合以及一些新的系统需求,因此必须有一套成熟的系统设计方法的指导.按照嵌入式系统设计的理论步骤,包括

学位

蓝牙嵌入式系统局域网访问点电磁兼容蓝牙天线

集中式机群自动重构系统（CCARS）的研究与实现

CCARS是在LINUX操作系统环境下开发的集中式机群自动重构系统.它的主要目标是:提高机群可用性和避免机群系统重构时发生过多的负载迁移.它通过减少故障修理的时间来提高机群

学位

机群重构系统LINUX操作系统故障探测模块时刻负载值机群故障率机群结点数

蓝牙信道自适应分段机制的研究及电缆替代应用的开发

多媒体、无线通信和互联网的融合是当今技术发展的趋势.随着各种短距离无线通信技术的发展,人们提出了无线个人区域网(WPAN,Wireless Persortal Area Network)的概念.WPAN的

学位

蓝牙无线个人区域网电缆替代协议无线通信蓝牙协议

行业应用软件过程化管理研究与应用

随着中国加入WTO,中国经济也融入了世界这个大舞台,中国软件产业也越来越意识到自身与世界先进计算机水平之间的差距.对于软件产品的开发已经从只局限在技术方面,逐步转变为

学位

软件过程改进ISO 9000CMMCMMI质量保证过程管理

不规则拓扑NOWs中路由算法的研究

近年来，工作站机群系统(NOWs)蓬勃发展，占据了并行计算领域的主导地位。发展NOWs的关键，是提高互连网络的性能。路由算法决定了消息在网络中如何选取路径，其效率对网络的性能起着

学位

机群系统不规则拓扑路由算法虫孔路由死锁uP~*/down~*路由算法

基于实例的行人避障运动仿真建模方法

随着计算机运算能力的大幅提高，以及图形渲染技术的不断改进，在计算机上构建逼真的虚拟世界已成为可能，通过虚拟现实技术来实现人群运动的仿真，已逐渐成为一个十分重要的研究方向

学位

行人避障运动仿真建模数据驱动机器学习

工作流系统的集成机制研究

基于Web服务的分布式工作流系统模型采用Web服务的组成协议UDDI、WSDL、SOAP、XML技术作为底层支撑技术,采用Web服务业务流程执行语言BPEL4WS作为工作流建模语言,实现工作流

学位

可扩展标记语言工作流管理系统Web服务XML技术CORBA技术SOAP域JAVA技术Web服务

异构系统网络存储共享技术的研究

在当今存储技术的研究领域中，被广泛认可的主流技术是基于光纤通道(Fibre Channel)的存储区域网络(SAN, Storage Area Network)技术，并且国内外众多企业在SAN及其衍生技术的研

学位

直接连接存储网络连接存储存储区域网络存储共享中间件SAN备份

基于机器学习的Web信息提取技术的研究

与本文相关的学术论文