基于XML的Web数据挖掘研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户：Tiramisu_smile

【摘要】

：

【作者】

：

汪平

【机构】

：

南京理工大学

【出处】

：

南京理工大学

【发表日期】

：

2009年12期

【关键词】

：

XML

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web数据挖掘是指利用数据挖掘技术从互联网的海量数据中发现和提取信息，而目前互联网上的数据信息没有特定的模型，大多数是半结构化的甚至是无结构的数据，这给数据挖掘带来了很大的麻烦。本文首先根据Web数据挖掘的特点以及XML在Web挖掘中的应用，设计了一个基于XML的Web数据挖掘模型，描述了HTML格式的网页文档向XML文档的转化过程，分析了转化过程中的关键技术，重点研究和探讨了针对XML文档数据集的数据挖掘问题。其次，研究了Apriori关联规则算法的基本理论与过程，分析了该算法的局限性。提出了一种基于事务长度分割数据集的改进算法，实验结果证明，改进算法提高了算法的效率。最后，详细描述了k-means聚类算法的基本理论与过程，分析了该算法对初始中心点的依赖性，针对初始聚类中心点的选取方法作出了如下改进：(1)提出了一种基于距离和聚类的孤立点检测方法，该算法能有效检测出所有的孤立点，从而避免了将孤立点误选为初始中心点；(2)结合密度的思想，根据各中心点距离应保持最大的原则对初始聚类中心点的选取作了改进。实验结果证明，改进算法提高了聚类的准确率。

其他文献

英汉交替传译中不当笔记成因和改善策略——以“新冠病毒危机中的难民问题”模拟会议为例

学位

中重度子宫内膜异位症患者血清中抗核抗体、抗心磷脂抗体和抗β2糖蛋白1抗体的检测价值

期刊

饲料中主要霉菌毒素的种类、含量及其对奶牛生理功能的影响

期刊

β-胡萝卜素的应用及研究进展

期刊

阿斯匹林加丙种球蛋白治疗川畸病的体会

期刊

木寨岭深埋隧道北段地应力测量与围岩稳定性分析