基于XML的Web数据挖掘技术的研究

被引量 : 0次 | 上传用户:caculate
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,互联网已成为信息传播与共享的重要资源。由于Web数据半结构化、异构、海量等特点,使得传统的数据挖掘技术不能直接运用到Web数据源上。Web数据挖掘就是从各种格式的Web文档或者Web活动中抽取潜在的、有用的模式。由于XML的结构化、可扩展性等优点,将XML与Web数据挖掘结合起来进行研究也已经成为这个领域的热点。本文首先研究了Web数据抽取技术,提出一种基于扩展DOM树的Web数据抽取方法。在Web页面的DOM树的节点中添加了页面的视觉特征元素和链接特征元素,然后进行节点重复度和新颖度的计算。通过计算多个相似页面之间子树的新颖度,可以自动学习和识别出对象数据并抽取出来,将抽取结果输出为XML文档。其次研究的是XML文档聚类,将XML文档的树形结构转化为一种层次结构,为处于不同层的元素赋予不同的权值。聚类算法计算XML文档与已存在类簇的层次相似度,将XML文档划分到层次相似度最大的聚类中。层次结构反映的是层与层之间的关系,简化了XML文档树形结构,使得计算相似度的时间消耗有所降低。最后,本文通过实验对算法进行验证,并对实验结果进行分析,论述了算法的优点和不足。
其他文献
目的:借助小鼠物理性和化学性疼痛模型、大鼠佐剂性关节炎(AA)模型考察甘草附子汤合煎液与分煎液的抗炎镇痛作用,明确不同煎煮方法对方剂药效学的影响及其与方剂效用之间的潜
近年来,随着我国教育体制的不断革新和优化,传统的教育模式已经逐渐被素质教育模式所代替,所以,在实际的教学工作开展期间,各个学校对于美术教学的重视程度也越来越高。因此,
财政资金在国库账户和财政专户之间的非业务性划转往来,干扰了国库会计核算和统计分析,同时也容易误导对金融机构的运行评价,需要通过开展国库现金管理加以解决。
讨论了分形理论中几个主要的理论分支即分形维数计算、分形插值、分数布朗运动、分形测度、幂指数分布、自相似性与标度不变性在各种实际研究领域中的应用,描述了这几个理论
近十来年,中美双边贸易的领域逐渐由初级产品向高新技术产品转移,贸易结构由互补转变为竞争和互补并存,同期我国出口商品遭受美国"337调查"的案件数也逐渐增加。针对这一现象
垃圾填埋场封场不仅仅是为了污染治理和安全控制,也是为了更好的进行生态建设。在我国很多城市由于经济、技术等原因,垃圾填埋场封场存在不足之处,导致危害事故的发生,并没有
基于“使用”的创新设计是产品设计系统中非常重要的部分。它通过协调交叉团队、研究用户使用行为、提炼价值机遇来生成产品创新设计规范。用户与产品的交互过程即产品的使用
根据自治区党委、自治区人民政府的统一部署和广西国土资源厅的工作安排,从2015年10月起,广西国土资源宣传中心定点联系巴马瑶族自治县西山乡戈贤村开展扶贫工作.
本论文以某工程为例,根据华北地区的气候条件,就该地区消防水罐的保温及伴热两种防冻方案通过计算进行了探讨,通过计算结果说明对消防水罐施以何种防冻措施更加合理,对今后的
万物萌生,捷报频传.4月19日,借助第二十届晋江鞋博会的东风,慈星股份事坦格针织技术交流会在中国鞋都晋江顺利举行,现场有多个重大项目集中签约,彰显了慈星股份的卓越实力.本
期刊