基于搜索引擎和XML的化工物性数据搜集与发布系统的开发

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:dlzhwp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文介绍了搜索引擎技术的历史、工作原理、新技术、专业领域数据库搜索引擎和面临的挑战,提出了页面分析与数据提取技术和主动式Web信息获取技术。使用Java以及Oracle9i数据库构建了一个面向化工物性数据的数据搜集和发布系统,其中利用了搜索引擎技术中的Spider技术和页面分析技术来获取数据,利用XML的通用性对数据进行转化和组织存放入了本地数据库中。针对页面分析和数据提取过程出现的数据定位不准确问题,本文提出了一种基于站点内页面对比分析的Web数据提取方法。在对页面建树和分块的基础上对比分析获得页面数据块,然后利用同结构多页面对比和格式判断提取出数据,最后将数据存入到数据库中。本系统实现了对网上的化工物性数据的高效、准确的数据提取。 
其他文献
随着Internet的快速扩展,网络安全已经成为现代计算机系统面临的最重要的问题。由于互联网络在设计、实现和使用中存在着种种安全问题,使得入侵事件不断发生。因此,入侵检测(
知识管理是组织决策支持系统的一个重要研究内容,它为ODSS提供了知识获取、共享以及重用等功能。但是,由于人们对知识的理解存在个体之间的差异,因此ODSS的知识管理存在很多
近年来我国高等院校毕业生的就业问题不断突现出来,原因不仅包括经济改革、高等院校扩招、教育资源紧缺、就业模式不健全等,还包括高等教育模式不适应社会要求的重要因素。深
本文研究的重点是基于句子抽取的中文单文档自动文摘的几个关键技术:语义段划分、文摘句选取,最后文章对单文档自动文摘系统的评价进行了探讨。首先,本文对基于自然段相似度
本文首先分析了色彩学基本理论和色彩还原的基本方法,主要介绍支持向量机方法、BP神经网络和RBF神经网络方法。 利用标准色板,分别对支持向量机方法、BP神经网络和RBF神
不同的形式化方法不仅在学术研究中得到支持与倡导,而且目前已经广泛应用到实际工业项目的各个方面。由于计算机系统越来越复杂,可能在一个系统中需要用到多种形式化方法,因
随着分布式系统的广泛应用和面向对象技术的蓬勃发展,以分布式对象为基础的软件系统的应用越来越广泛。分布式对象作为此类系统的基本单元,对此类系统的设计、实现和运行起着
模糊决策是模糊集合论与决策理论相结合的产物,它为解决半结构化和非结构化的决策问题提供了完备的理论依据和方法模型。本文首先对现有的几类典型的模糊决策方法进行了深入
本文首先提出了一种改进的动态时间规整算法并用其来识别八类不同形状的脉象。该方法是基于模板匹配来对模式进行分类的,其优点是分类时无需特征提取,分类器的设计不需
在近20年来图像处理技术和计算机视觉技术变得越来越重要。图像分割又称为图像中物体的边界识别,是计算机视觉和图像处理中最为重要的问题之一。分割技术的应用范围很广,包括