基于Agent的Web信息抽取研究

被引量 : 0次 | 上传用户:shmi1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网的迅速发展,近十年来,Web信息抽取日益成为学术界和商业领域的一个研究热点。Web信息抽取的目标是,从多个异质的Web站点中定位和识别感兴趣的信息,并将抽取结果以统一的结构化的格式表示。Web信息抽取是Web数据挖掘、机器翻译等应用的基础。Web信息抽取的主要困难是由于万维网上的Web页面固有的数量巨大、异质且动态更新的特点而带来的复杂性、可扩展性、适应性问题。 本文提出了一个基于Agent技术的Web信息抽取系统。它是一个多Agent系统,主要由三个Agent和四个知识库组成。知识库是系统运行的基础,本文采用XML表示Web信息抽取所用知识和结果数据。另外,XML在本文中还用于Agent之间的通信。系统中的Agent包括用户接口Agent、Web页面获取Agent和信息抽取Agent。各个Agent有自己的子目标、功能和行为,可以自主运行,同时Agent之间通过协调和合作,共同为准确高效地进行Web信息抽取的总目标服务。采用这种结构简化了问题的复杂性。 系统的三个Agent中,信息抽取Agent是核心,主要负责学习抽取规则和运用抽取规则进行信息抽取。其中借鉴了现有的已被广泛使用的包装器归纳法的思想和DOM树方法。 系统的抽取规则从信息在特定领域的语义特征和页面格式特征两方面定义,使抽取规则具有一定程度的适应性和可重用性。由于Web页面获取Agent具有主动感知Web页面更新、并通知信息抽取Agent调整抽取规则的能力,更进一步增强了系统的适应性。此外,通过用户和Agent配合、半自动化学习抽取规则,获得的样本有代表性,且学习过程较简单。因此,本文是对Web信息抽取领域的进一步发展以及Agent技术的应用的有益研究。
其他文献
并联机床(Parallel Machine Tool)又称为虚拟轴机床(Virtual Axis Machine Tool),是90年代中期问世的数控机床新结构,是机构学理论、机器人技术与数控技术结合的产物,其原型是并
摘 要本文对中国古代建筑中的木结构和砖石古塔的结构特性和抗震性能进行了详细研究。关于木结构抗震和加固取得了以下方面的成果:(1)对于单层木结构古建筑,针对榫卯连接的半刚
我国云南地区区域地质构造复杂,处于欧亚板块与印度板块碰撞的边缘部位,地形复杂,地质构造多变,活动断裂发育,新构造运动十分强烈,受褶皱、断裂及岩浆侵入活动的影响,岩层切
<正>补益药的抗衰老作用,在古代医籍中,记载了许多宝贵经验。近年来,我国的医药科技工作者,对传统补益药在抗衰老药理研究方面作了大量的工作,取得了很大的进展,显示中医药抗
波形钢腹板箱形梁桥采用波形钢板取代混凝土腹板,并且采用体外束,有效减轻上部结构自重、提高预应力效率、充分发挥各种材料的性能,提高了腹板的抗剪能力和结构耐久性,有效解
西方19世纪时代精神的自我理解主要建立在泰坦英雄普罗米修斯形象上。从谢林、海涅和马克思三大家的普罗米修斯神话研究中可以归纳出一种辩证法神话研究路径。谢林"反神圣成
分析中间包内钢液的停留时间分布(RTD)曲线,从而定量描述其内流动特性的组合模型已被应用数十年,但对于多流中间包,目前还没有公认的流动特性分析模型.本文提出了针对多流中
本文通过对客户关系管理(CRM)理论和方法的分析研究,针对目前,客户关系管理CRM与电子商务EC、决策支持系统DSS结合起来应用的还不多,尤其是与食品行业的具体实际相结合的应用很
传统的"活性-化合物"天然药物发现方法导致大量已知化合物被重复分离,大大加剧了新药发现的难度。规模化基因组测序揭示了微生物基因组中存在大量的隐性(cryptic)次级代谢产
当今,教师专业化越来越成为教育理论界关注的焦点。在我国,中学思想政治课有着特殊的地位。面对经济全球化进程给人们思想观念带来的影响,为了培养合格的社会主义事业的接班人,我