论文部分内容阅读
随着计算机软件,硬件以及网络技术的发展,人们已经习惯将因特网作为信息发布与交流的主要载体,Web上的信息呈爆炸式增长。现在的万维网有超过8亿的网页,这些网页覆盖了人类活动的大部分领域。因此,它已经成为用以改变信息查找效率的数据挖掘研究的肥沃土壤。目前,我们主要通过两种方式来访问互联网:点击超链接和关键字搜索。这个过程是一种试探性的,往往不能让人满意。我们现在需要更好的支持来表达自己的信息需求,以比目前更具结构化的方式来处理搜索结果。数据挖掘和机器学习将在如何达到此目的方面发挥重要的作用。Web挖掘就是在这种背景下兴起的将数据挖掘技术应用到半结构化的Web数据上,针对Web数据的特点进行知识发现的一个新的研究领域。本文以Web上的新闻网页数据作为载体,来研究Web挖掘。Web挖掘可以分为三大类:Web内容挖掘,Web结构挖掘,Web使用挖掘。本文的研究侧重于Web内容挖掘,即Web挖掘在新闻网页文本中的应用。本文主要工作有以下几个方面:1.系统地探讨了Web挖掘和超文本挖掘的基本理论。2.实现了基于新闻网页内容挖掘所需的相关预处理技术。这些预处理技术包括数据的采集,网页内容的抽取,中英文的分词等。3.提出了一种基于MinApriori度量的相似性检测方法。该方法受关联规则在处理数值数据时的处理方式的启发,应用于文档相似度检测时,能极大地提高检测的速度,并能保持检测的准确性。4.将分类引入新闻网页中,方便用户浏览新闻。本文系统分析了能应用于文本分类的学习算法和降维方法,并通过系统的实验,分析了各种算法在文本分类中的表现,以及降维对分类效果的影响。最后实现了一个基于ComplementNaiveBaye方法的新闻文本自动分类系统。5.构建了一个网络数据在线挖掘服务平台。该平台集成了上述工作。通过网络数据在线挖掘服务平台,能在较少人工干预的前提下,实现对网络新闻数据的重复检测、分类等挖掘功能,这些功能的实现,能有效地提高信息的使用效率,该平台具有广泛的应用前景和潜在的商业价值。