基于XML的Web数据挖掘研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:Tiramisu_smile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web数据挖掘是指利用数据挖掘技术从互联网的海量数据中发现和提取信息,而目前互联网上的数据信息没有特定的模型,大多数是半结构化的甚至是无结构的数据,这给数据挖掘带来了很大的麻烦。 本文首先根据Web数据挖掘的特点以及XML在Web挖掘中的应用,设计了一个基于XML的Web数据挖掘模型,描述了HTML格式的网页文档向XML文档的转化过程,分析了转化过程中的关键技术,重点研究和探讨了针对XML文档数据集的数据挖掘问题。 其次,研究了Apriori关联规则算法的基本理论与过程,分析了该算法的局限性。提出了一种基于事务长度分割数据集的改进算法,实验结果证明,改进算法提高了算法的效率。 最后,详细描述了k-means聚类算法的基本理论与过程,分析了该算法对初始中心点的依赖性,针对初始聚类中心点的选取方法作出了如下改进:(1)提出了一种基于距离和聚类的孤立点检测方法,该算法能有效检测出所有的孤立点,从而避免了将孤立点误选为初始中心点;(2)结合密度的思想,根据各中心点距离应保持最大的原则对初始聚类中心点的选取作了改进。实验结果证明,改进算法提高了聚类的准确率。
其他文献
学位
期刊
期刊
期刊
期刊
期刊
会议
期刊
学位
期刊