面向Web信息集成的Web信息抽取中若干关键问题的研究

被引量 : 9次 | 上传用户:adder2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的迅猛发展为信息集成技术带来了新的问题和挑战,面对Internet上异质、异构数据的大量涌入,信息集成技术的研究呈现出前所未有的生命力。Web信息集成系统为Web数据管理提供了一种全新的方法,它提供了一个访问Web上多个数据源的、统一的和透明的访问界面。其主要目标是支持对Web上的多个数据源的查询,满足用户的查询需求。本文在对Web信息抽取、集成系统研究的现状和发展趋势进行深入分析的基础上,围绕其中几个关键问题进行了深入的探讨,尤其是针对复杂、海量及非结构化和半结构化文本数据类型的特性,从知识发现内在机理研究的角度出发,形成了Web文本挖掘系统的机构模型、算法、应用系统一体化路线。本文主要的研究成果如下:(一)提出了轻量级包装器算法。由于实际使用中的Web信息集成系统大部分为实时系统,目前广泛使用的WIEN包装器归纳学习算法为学习包装器,用户必须提供若干页的完整标签,即用户必须提供例子页的各个元组的标注,系统的效率和实用性非常低,特别是当搜索引擎返回大量的信息源后,面向信息集成的系统要求包装器必须能够高效率地开展工作。本文基于Web页面信息的存在信息冗余的特点,通过标记的训练子例归纳学习包装器,采用了相同页面的数据子集作为训练实例,将潜在的学习抽取规则转变为少量实例规则的抽取学习问题,以完成信息快速抽取的任务。主要目的是研究基于数据集成目的的自动高效快速构造Web信息源的包装器的归纳学习系统。该理论应用在实际竞争情报信息系统中证明是有效的,而第二章对此问题做了深入的理论证明。(二)提出了快速Web信息源权威值计算方法。该算法利用Web页的链接的有限拓展获得相关主题的例子页面结合,然后直接构造邻接矩阵并由引用次数计算Web页面的权威值,该算法能够在对Web页面进行信息抽取的同时计算得到Web页面权威值,由于设计采用了例子页面查询拓展,对于Web信息集成中区别对待不同质量信息源起到关键的作用。这一算法在保证和PageRank一致的精度下,在相同数据集条件下,平均计算时间仅为PageRank算法的8%。(三)提出了一种面向XML的公共数据模型XCDM该模型针对已有的半结构化数据源模型在表达XML文档时存在的缺陷,将OIM有向图结构与XML语言的相关特性相结合,并补充了四种代数操作。该模型充分考虑了XML语法表达的灵活性,可以为用户提供多级视图。(四)提出了一个基于HowNET构造出的Ontology的信息抽取、集成模型一个基于概念模型的本体提供了再现知识,存储信息,并在特定的上下文中给出表示符的机制。这种机制对引导、结合与解释信息的原有特征以及为高质量的搜索和信息抽取、综合、分析和简化起到了杠杆作用。我们的目标就是利用这种基于概念模型的本体,使得查询、抽取、结构化和综合等信息变得更加有效和准确。Ontology实现Web信息集成本质,在语义层通过HowNET建立共享信息模型,使用Ontology语言对数据源给予形式化表示。针对Internet信息资源的特点和信息检索系统的现状,作者在详细探讨和分析了信息抽取技术的产生和相关技术及其在网络信息检索方面应用的同时实现了一个包含上述理论探讨的为某跨国化工公司实现的企业情报竞争信息系统,该系统基于Ontology的Web信息抽取、集成系统,采用Ontology的概念模型和基于规则的信息抽取系统,将Ontology与模板规则相结合来实现Web网页的信息抽取。目前系统已经作为该公司CRM项目的一个子系统投入正式使用。
其他文献
新兴的T2O模式让电视台大幅度改变了以往"被投放广告"的劣势局面,这种模式下,电视台可以自行挑选合作商户,获取主导权。但目前由于该模式还处于初期探索阶段,效果并不理想。
有限元法是对电磁场进行数值求解的重要方法,也是本科电磁场课程的教学内容之一。论文结合本科教材阐述了对电场进行有限元计算时的数学模型和算法原理,介绍了Matlab软件基本
目的:观察大株红景天注射液联合奥扎格雷钠治疗急性脑梗死的临床疗效。方法:将135例患有急性脑梗死患者随机分为2组:对照组67例,在常规治疗基础上给予奥扎格雷钠80 mg静滴,2/
变压器是典型的电磁耦合器件,其等效电路获取是教学的重点内容。传统方法是基于变压器内部电磁关系和绕组折算获得T型等效电路,本文提出了一种新的获取等效电路的教学方法。
<正>工程建设行业信息化领域面临的首要问题,是处理好建筑工业化要求的"系统性"解决方案与施工现场"碎片化"管理模式之间的矛盾。将行业信息化水平进行系统性提升,是集技术创
应用原位杂交的方法,观察实验性大鼠多囊卵巢( P C O)中胰岛素样生长因子 I I( I G F I I)m R N A 在卵巢中的分布情况。结果表明,在大鼠 P C O 中 I G F I Im R N A 主要在卵泡膜细胞中表达,颗粒细
本论文以NaBa4Al2B8O18Cl3、BPO4和BaAl2B2O7等紫外、深紫外非线性光学晶体材料为主要研究内容,开展了固相合成、助熔剂探索、晶体生长、结构测定、性能测试等工作。主要工作
目的探讨在治疗肺癌过程中利用袖状切除术和全肺切除术的疗效。方法从2008年1月~2010年1月来我院治疗肺癌的患者当中选出110例,根据患者采用治疗方法的不同将其分为两个小组,