【摘 要】
:
随着Internet的飞速发展,它成为了迄今为止最密集、最丰富的信息来源。那么从这些海量数据中找到使用者感兴趣的信息逐渐成为人们关注的焦点。作为从 Web 文档和 Web 活动中
论文部分内容阅读
随着Internet的飞速发展,它成为了迄今为止最密集、最丰富的信息来源。那么从这些海量数据中找到使用者感兴趣的信息逐渐成为人们关注的焦点。作为从 Web 文档和 Web 活动中抽取感兴趣的潜在的有用模式和隐藏信息的有效技术,Web 挖掘悄然兴起,备受关注。而XML由于具有可扩展性、结构化和有效性等特性,建立了一种传输结构化数据的方法,从而使用户能够对Web信息实施精确查询与模型抽取。因此XML与Web挖掘的结合将在数据挖掘领域内进行的研究推向了一个新的高潮。 本文首先从Web挖掘研究背景入手,介绍了数据挖掘相关概念,相比HTML而言XML 在 Web 挖掘应用中的优越性,以及 Web 挖掘的内涵和复杂性分析,Web 挖掘原理、特点、分类等等。 接着,阐述了如何实现Web内容挖掘的问题。 提出了使用标准web技术——HTML、半结构化数据模型、XML、Java——开发的一种基于 Web 的数据挖掘方法。利用对象交换模型OEM将Web页转换为XML文档,然后用Java实现从XML文档中抽取感兴趣的信息。通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的引用点,可以实现数据抽取的任务。 最后讨论了结构化信息的挖掘。使用有序树作为数据模型,提供一种从有序树中挖掘频繁引导子树的方法,帮助人们更有效的获取Web上的信息。
其他文献
团簇研究处于多学科交叉领域,是物理学、化学以及生物学的交叉点。分子团簇一般通过VanderWaals力弱结合或氢键结合的形式产生,通过氢键作用形成的团簇在许多化学和生物过程中
本论文工作对产精氨酸突变株进行代谢工程改造,通过对精氨酸生物合成途径中的关键节点γ-谷氨酰激酶以及中心代谢途径中的关键节点磷酸烯醇式丙酮酸羧激酶和丙酮酸羧化酶进行
肽转运是真核生物和原核生物中普遍存在的一个现象,它在真核生物和原核生物的生长过程中具有重要的作用。在细胞内寡肽的运输是要通过载体(肽转运蛋白)介导并需要提供能量的
初中生英语口语教学是一项难度较大的教学工作,对于缺乏相应语境的中学生来说,英语口语表达始终是他们急需提升的能力之一。然而,从目前初中英语教学的现状来看,部分教师仍然痴迷
本论文根据现有的实验条件,对于低噪声HEMT,低噪声放大器的设计进行了研究,提出了适合我们设计要求的HEMT件外延层材料结构。 根据低噪声放大器的设计要求,对于低噪声放大
植物光合产物分配直接影响到陆地生态系统的生产力。准确模拟植物光合产物分配动态及其对环境变化的响应将直接影响陆地生态系统生产力和碳收支的准确评估。本文首先探讨了土
集成电路中的所有器件都是通过电源网格得到其所需的供电电压的。随着集成电路制造工艺的不断向前推进,尺寸的不断缩小,电源网格完整性分析也变得越来越重要了,互连线的电阻
开放式基金费用与绩效和资金流之间存在密切的关系,本文选取2006~2007年的数据,以开放式股票型基金为研究对象,采用面板方法进行实证分析,结果表明基金费用与绩效之间呈现明显
小学语文教学的目的,是指导学生正确理解和运用祖国的语言文字,使学生具有初步的听、说、读、写的能力。须知,语文课的第一任务是让学生学习语言。而读是学习语言的重要途径之一