论文部分内容阅读
万维网(WWW)目前是一个巨大的、分布广泛的全球信息服务中心,它涉及到新闻、财经、广告、商务、文化、教育等信息服务。然而面对复杂而庞大的万维网,多数用户感到力不从心。如何有效地帮助用户从WWW上发现他们感兴趣的资源,已经成为一个迫切需要解决的课题。 根据中南大学校园信息港建设目标,我们设计和开发了CSUIHWD(中南大学信息港Web挖掘)系统。通过CSUIHWD对那些感兴趣的网页进行采集、过滤处理后,自动按主题归类,在中南大学信息港网站发布。CSUIHWD补充了校内网站的资源,加大了对Internet上资料的利用,并为建立智能搜索引擎打下了很好的基础。 论文首先介绍了数据挖掘和Web挖掘的一些基本概念、方法和技术,阐述了什么是数据和Web挖掘,为什么要进行挖掘。并介绍了CSUIHWD基于Web内容挖掘的网页分类与过滤技术和系统原型。然后着重对Web内容分类挖掘的一些关键技术进行了阐述,这些关键技术包括:Web网页数据的采集、中文的分词和分类器的建立它们是Web内容分类挖掘的核心。 CSUIHWD由CsuRobot执行网页数据的采集,CsuRobot是一个类似于网络机器人的自动网页采集程序,它采用了多线程技术,可以同时执行多个采集任务;设计了反序机械分词词典,提高了逆向最大机械分词算法的分词速度,使用机械分词和统计分词相结合的方法,部分解决了未登录词问题;针对朴素贝叶斯分类算法没有考虑Web的半结构化,对所有的词“一视同仁”,本文考虑了那些对文本分类有特殊贡献的词,增加了它们的权重,对算法进行了改进,试验结果表明,这种改进是有益的。 最后对本文的工作进行了总结,并确定了以后进一步研究方向。