【摘 要】
:
随着近几年的Internet飞速发展,Web已经发展成为一个巨大的分布和共享信息资源的平台。但如何从Web中快速、有效地获取信息仍然是困扰着Web用户的一个问题。尽管目前对Web信
论文部分内容阅读
随着近几年的Internet飞速发展,Web已经发展成为一个巨大的分布和共享信息资源的平台。但如何从Web中快速、有效地获取信息仍然是困扰着Web用户的一个问题。尽管目前对Web信息抽取技术已进行了大量的研究工作,但现有的技术还不能让用户满意。XML为Web提供了一致的数据模型和描述语言,已成为表示Web中多样性数据的事实标准。论文通过对Web信息抽取的分析和研究,针对目前存在的问题,提出一种实用的基于XML的Web信息抽取技术的解决方案,并对其中涉及的关键技术,如HTML到XML的转换、Web信息抽取方法等方面进行了深入分析和研究,期望为推进本领域的发展作一点贡献。论文的主要内容包括如下几个方面:①以XML技术为基础,分析了现今流行的几大类信息抽取技术以及各自应用的范畴。除此之外,还应用了数据结构中的常见算法——树的遍历算法来实现Web数据到XML数据的转换,简化了信息抽取工作,方便地形成XML文档,为处理XML文档、抽取出适当的数据作了铺垫。②分析了XML信息抽取的健壮性标准,将该标准运用于XML信息抽取的区域定位和映射合并中,并分别给出了符合健壮性标准的合适方法,从而提高了XML信息抽取的效率。③原型系统的实现。根据上述两点的研究结果、结合信息抽取技术、XML技术和Visual Studio.NET技术,提供了一个基于XML的Web信息抽取原型系统,具有良好的可移植性和适应性。综上所述,本文针对Web信息抽取从技术、标准、设计与实现等方面进行分析,并且实验证明了其可行性。所以,基于XML的Web信息抽取的设计与实现,具有一定的理论意义和实用价值,并为信息抽取的后期工作有一定的技术支持。
其他文献
促进广告设计成功的因素之一,就是色彩。有色彩的广告比黑白广告更能给予读者强烈的印象,唤起人们的情感。色彩是表现、烘托广告形象的有效手段。了解色彩对人们视觉刺激的心
整体音乐素养是提高声乐教师最佳知识结构的重要组成部分。文学修养是合格声乐教师必须具备的素质。声乐教学法的研究是声乐教师的职责。声乐教师应具备一定的物理学、医学知
1如何解决在约束处应力较大,与实际情况不符的问题?在有限元计算中,约束处往往会发生应力集中现象,应力值较大在所难免.为与真实应力情况相符,需在约束处做一些相关处理:可以在约束
牛MC1R基因不仅与毛色有关,而且与牛乳中乳蛋白的含量有关。利用PCR-RFLP和DNA测序技术分析了中国荷斯坦黑白花牛,中国荷斯坦红白花牛,鲁西黄牛和渤海黑牛共4个品种的MC1R基
侵占罪是一类古老的传统型侵犯财产所有权的犯罪.新<刑法>基于现实需要全面增设了侵占犯罪的规定.文章主要对该罪进行简要的论述,具体分析侵占罪的犯罪构成、侵占罪与相关犯
随着我国经济的高速发展,现有的公用事业已不能满足国民经济发展的要求,而公用事业的建设需要大量的资金投入,如果只依靠政府财政,就会显得捉襟见肘。改革现有的投融资模式,
工作投入是在世纪之交受积极心理学思潮的影响而形成的一个新的研究领域。工作投入的研究在20世纪末起源于西方,国外关于工作投入的研究还处在起步阶段,在工作投入的测量方面
森林火灾的控制可以利用林火蔓延模型,一方面,林火蔓延模型能够基于具体的罂粟判断林火的发展趋势,另一方面,林火蔓延趋势能够对林火控制的措施利用提供参考,所以在林火蔓延
分析了卧佛渗水的机理,介绍了卧佛渗水的治理计划,并对卧费治水第一阶段工程-复合型 截水坝的施工工艺作了详细说明。
随着世界经济一体化、知识经济时代的到来,市场竞争日益激烈,企业经营日益趋向全球化。企业之间的竞争在很大程度上转变为供应链与供应链之间的竞争,供应链管理这种逐渐兴起