基于机器学习的Web信息提取技术的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hhbsoftware
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习的介入为Web信息的提取开辟了新的研究方向,其自适应机制能够较好的适应Web信息的动态性和松散性,使系统在提取Web信息时可根据反馈信息自动完成旧规则的修改和新规则的推导.目前国内外对基于机器学习的Web信息提取有一些研究,但这些算法在实际应用中表现出种种缺陷,因此改进已有算法和提出新的算法显得尤为重要. 通过一定的分析和比较,给出了两种新的基于机器学习的Web信息提取算法并且对原有FOIL算法进行了有效改进,并在实验基础上对每个算法的性能进行了全面的分析和评估.针对FOIL算法在学习不相邻网页间复杂联系时表现出来的不确定性,提出了一种基于网页间联系的新的路径学习算法:多策略学习算法将多个学习算法相结合,解决了单一机器学习算法推导提取规则时的片面性问题,所得规则能更全面地反映Web信息的分布规律;基于模板填充标记的学习算法采用自底向上推导规则的模块层叠方法,通过在提取模板中填充一定数量的有助于识别信息类别的SGML标记,使算法能覆盖Web页中的不可见信息,可有效控制学习过程中信息的遗漏和溢出,实现智能化Web信息提取. 此外,将研究的算法应用于国家药品监督管理总局"Internet上药品信息及电子商务监管系统"的开发中,实验结果表明上述三种算法在信息查全率和提取精确度上较现有算法有较大的提高.
其他文献
目前国内外的学者对信用卡电子支付协议做了大量的研究,并且有了很多成果已经投入实际应用,比如SET协议等等.鉴于该课题是为了给精伦电子公用多业务终端信用卡支付提供一种解
随着互联网技术的迅速发展,网络数据的规模呈现着爆炸式增长。如何从规模庞大的网络数据中快速获取高质量的知识是目前亟待解决的一大问题。为此,需要构建面向开放文本的领域知
嵌入式系统设计的挑战通常源于开发平台的专用性,系统各个部分的有机组合以及一些新的系统需求,因此必须有一套成熟的系统设计方法的指导.按照嵌入式系统设计的理论步骤,包括
CCARS是在LINUX操作系统环境下开发的集中式机群自动重构系统.它的主要目标是:提高机群可用性和避免机群系统重构时发生过多的负载迁移.它通过减少故障修理的时间来提高机群
多媒体、无线通信和互联网的融合是当今技术发展的趋势.随着各种短距离无线通信技术的发展,人们提出了无线个人区域网(WPAN,Wireless Persortal Area Network)的概念.WPAN的
随着中国加入WTO,中国经济也融入了世界这个大舞台,中国软件产业也越来越意识到自身与世界先进计算机水平之间的差距.对于软件产品的开发已经从只局限在技术方面,逐步转变为
近年来,工作站机群系统(NOWs)蓬勃发展,占据了并行计算领域的主导地位。发展NOWs的关键,是提高互连网络的性能。路由算法决定了消息在网络中如何选取路径,其效率对网络的性能起着
随着计算机运算能力的大幅提高,以及图形渲染技术的不断改进,在计算机上构建逼真的虚拟世界已成为可能,通过虚拟现实技术来实现人群运动的仿真,已逐渐成为一个十分重要的研究方向
基于Web服务的分布式工作流系统模型采用Web服务的组成协议UDDI、WSDL、SOAP、XML技术作为底层支撑技术,采用Web服务业务流程执行语言BPEL4WS作为工作流建模语言,实现工作流
在当今存储技术的研究领域中,被广泛认可的主流技术是基于光纤通道(Fibre Channel)的存储区域网络(SAN, Storage Area Network)技术,并且国内外众多企业在SAN及其衍生技术的研