基于XML的Web内容挖掘应用研究

来源 :华北电力大学(保定) 华北电力大学 | 被引量 : 0次 | 上传用户:ab7268062
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对信息时代“信息爆炸”的问题,即信息极大丰富而知识相对匮乏,进行了基于XML的Web内容挖掘应用研究。文章在介绍了数据挖掘、Web内容挖掘、XML技术等相关理论知识的基础上,首先,详细阐述了Web内容挖掘中HITS算法的原理,分析了该算法“主题漂移”问题的形成原因,给出了多种改进算法。然后,为了表示Web上的半结构化数据,设计了一种面向XML的半结构化数据模型——ECDM,并对ECDM模型的对象进行了描述以及形式化定义,给出了XML文档与ECDM模型的对应关系,为Web挖掘奠定了基础。最后,设计了基于XML的Web内容挖掘系统的主要框架,简单阐述了实现步骤。
其他文献
机器音译就是根据发音将给定的源语言中的专有名词自动翻译成目标语言对应的词汇的过程。相对于机器翻译而言,机器音译不存在语义层次的翻译要求,并且是一种顺序翻译的过程,
Internet的不断发展,网上新闻信息的获取已成为人们知识来源的主要途径。但是,随之而来的“信息爆炸”,使得人们通过搜索引擎或者浏览网页很难从大量的地搜索结果中获取方便的、
随着搜索技术的发展,纯粹的web搜索由于受到IE的束缚,因而表现出应用能力偏低,而基于桌面的搜索则相当于一个“客户端+数据库”这样的应用模型,尤其加入了划词搜索的功能,这也使得
学位
随着SoC系统规模的持续扩大,系统验证复杂度也随之增加。传统的验证方法很难进行完备的验证,验证技术已成为制约SoC技术发展的瓶颈。为缩小与设计制造的差距,一系列高级的验
近几年来,无论是国有商业银行,还是股份制商业银行,对银行业务电子化处理都给予了前所未有的重视,电子化集中处理成为各银行建设的重要目标,实现对票据的电子化和自动化处理己成为
在大型复杂系统开发的初期,系统需求的抽取、描述和管理是一件困难而细致的工作,对后期开发的影响也是至关重要的。华中科技大学软件工程实验室研究课题SoftMaker作为生产软
VCE Search Engine是一个基于Globus网格平台的网络搜索引擎项目。本文以VCE Search Engine项目的网页采集功能为需求,设计并实现了一个有效且高性能的基于网格进行大规模网
随着计算机技术的发展与普及,许多企事业单位和管理机构都建立了自己的管理信息系统。在信息系统开发设计过程中,安全性能总是被放在首要的位置,成为信息系统生存的关键。构建企
网格技术是一门新兴的技术,有着非常广泛的应用前景和发展空间。在网格强大的功能给科学研究带来极大便利的同时,也不得不担心网格应用的安全性。 本文通过对网格安全的需求