基于模糊论的Web信息提取方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:dannychan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅猛发展使得网络上的各种资源信息异常丰富,在这些海量的Web信息资源中,蕴含着具有巨大潜在价值的知识,也存在信息过量难以消化、中文词的歧义划分、Web信息形式不一致、并且难以辨识等问题。如何快速、准确地获得有价值的Web信息,如何从这些海量数据中发现知识,这就要求有一个高效、高准确率的Web信息提取工具。  目前已有的Web信息提取方法主要致力解决Web信息形式不一致的问题,并提出了许多较好的方法。但这些方法都是建立在实验基础上的,还缺少进一步的理论分析。为了较好地解决上面问题,作者结合网页分类、汉语分词、模糊匹配的方法,来研究Web信息提取的方法,这对Web信息提取方法的研究是有意义的。  Web信息提取是一个复杂的系统,因此作者依据模糊论的基本思想,给出一种基于模糊论的Web信息提取方法。这个方法包括模糊网页分类、基于特征学习的网页信息提取、模糊匹配、语境汉语分词和分布式主动数据库五个部分。  为解决Web信息过量难以消化的问题,提出了一种基于特征选择和模糊学习的网页分类方法。其中基于加权相似度的特征选择方法依据模糊论思想,来解决巨大维度问题,提高分类速度。它给出了权值Wf的计算方法,并证明这个计算方法可以使加权相似度和基于文档关系的相似度相一致,还给出了特征选择算法的加速分析。用模糊学习方法,给出了一种用成员函数作为融入人类知识的机制、以及用来学习成员函数参数的参数学习规则。通过理论推导,用李雅普诺夫函数分析参数学习规则的学习收敛性,揭示参数学习算法朝最小误差方向调整参数的内在因素,并在单参数学习算法收敛性的分析基础上,给出变调整法则的单参数学习算法,来加快参数学习速度。  为解决Web信息形式不一致的问题,提出了基于相关过滤的网页特征信息的提取理论。此理论包含网页特征信息的数学形式表示、一维空间域的网页信息过滤定理及其证明、网页信息的相似性分析等,并指出特征信息提取系统可以把同一网站中具有共同信息模板的网页,用相关接收的方法实现匹配滤波器,提取出信息模板的特征信息。在此理论基础上,融合基于标识规则和基于内容的两种方法,给出了一种基于特征学习的网页信息提取方法。这种方法是依据模糊论思想,研究信息特征的学习方法,来提高信息提取的适应能力。  为解决Web信息难以辨识的问题,提出了一种基于义素的网页信息项语义匹配方法。此方法给出了一种改进的义素相似度,并给出了相似度函数的相关定理及其证明,还分析了改进义素相似度中参数β值的影响效果。在改进义素相似度的基础上,此方法给出了一种基于义素的词相似度,来从语义上去匹配新名词和旧名词。  为了解决中文词的歧义划分问题,提出了一种基于语境的中文切分理论。此理论包含词切分过程的马尔可夫链表示、词切分过程的收敛性分析等,并指出词法是处理无歧义划分的基础,词的语境信息是处理歧义划分的依据。在这个理论基础上,给出了一种基于语境的中文分词方法。  针对信息预测、预警等后续信息处理的及时性要求,在Web信息提取方法中提出了一种面向Agent的分布式主动数据库框架,使数据库能够主动及时地处理信息。此框架分析面向对象方法的局限性,将Agent技术、分布式数据库、主动数据库相结合,并给出扩展事件规则图方法和改进的Coffman—Graham规则并行算法。扩展事件规则图方法给出了它的终止性分析,来解决分布式主动数据库的终止性问题。改进的Coffman—Graham规则并行算法给出了一些相关定理及其证明,并在这些定理基础上,分析了它的并行效果。  基于上述的理论研究成果,研制和开发了国药局网上药品信息监管系统Web-MIND的原型系统,它能够搜索和提取网上医药广告信息、审核Internet上有药品信息和广告的站点等功能。
其他文献
安全策略是指导系统进行安全设计、安全使用、安全管理的总原则.一个良好的安全策略既是设计安全系统的出发点,又是验证、评估系统安全强度的依据.如何根据用户的要求及系统
随着移动计算技术的快速发展,移动环境下涉及到实时事务处理的应用需求正逐渐增长。而移动通讯的带宽有限性引起较大的数据访问延迟,有时甚至由于网络传输的断接而使得事务得不
该文首先分析了当前主流网络管理方案的一些局限性,接着介绍了使用移动计算技术的网络管理模型的设计和实现,然后对其性能进行了分析,最后介绍了使用移动计算技术管理移动设
WFMC(Workflow Management Coalition)针对以上问题提出了工作流的概念,希望以 此来规范和统一计算机化的流程的研究.工作流采用共性和个性分离的观点,从根本上消除了上面的
该文对图象分割算法进行了深入研究,对图象二维灰度分布模型进行了扩展,在分析模糊C均值(FCM)算法的基础上,针对二维灰度分布提出了快速FCM算法;同时,根据二维灰 度分布的特
高效的视频压缩编码技术,是实现实时传输、IP易错信道环境中的前提和保证,对于目前的网络通信发展状况而言,如何进一步提高编码速度,促进视频编码在多媒体通信领域的应用,是当前的
随着教育的不断深化改革和计算机技术的不断进行,计算机在教育中的应用日益广泛,计算机辅助教学(Computer-Assisted Instruction,简称CAI)的发展和应用已经成为衡量一个学校
该文的目的就是找出一个适合于CIMS系统的分析方法并提出一个更实用的系统建模方法.该文在介绍了面向对象的基本概念及面向对象技术和特点后,给出了系统建模原则,提出一个面
该次华业设计所做的是虚拟商场,即网上购物,是在该人曾经参加的一个传统的商场 信息管理系统的基础上,结合当前的技术热点,采用最新技术设计完成.采用三层结构体系,后台数据
长期以来,电话在人们生活、工作中发挥着重要的作用,但传统的电话方式效率低上,网络资源浪费严重,造成电话费用居高不下,成为企业一比可观的开支.随着计算机网络和通信技术的