论文部分内容阅读
万维网已经和我们生活的各个方面紧密联系在一起了。我们使用它获取信息,与人们进行交流,使用万维网更加高效地工作,进行各项社会活动。如何从Web上快速准确的检索到用户所需信息成为亟待解决的问题。为应对这一问题,在信息检索领域产生了主题Web挖掘这一研究课题。它的基本思想可以概括为:根据用户定义的某一主题,用主题爬虫遍历网络,收集与主题相关的页面,然后将收集到的页面进行智能的分析,最后以友好的检索方式满足对某一特定主题的检索要求。主题Web挖掘涉及多个学科,包括机器学习、信息检索、语言分析、统计学、计算机网络等。主题Web挖掘具有广泛的应用前景,包括专业领域知识库、企业决策支持、客户流失分析、潜在客户分析、企业管理优化、行业趋势分析等,与现有的通用搜索引擎相互补充。本文在分析了主题Web挖掘的研究内容和当前研究存在问题的基础上,将重点研究三个问题:一是如何提高Web文本的分类准确率;二是如何提高主题爬虫的性能,特别是在反作弊方面改进主题爬虫对页面主题判定的准确率;三是根据以上研究,设计并实现了主题Web挖掘的原型系统Gsearch,是一个机器学习方面的主题搜索引擎,通过大量对比实验验证了本文提出的模型和算法的有效性。本文的创新点主要体现在以下几个方面:1.本文在分析当前主题爬虫缺少反作弊能力而影响爬虫准确性的基础上,提出了基于反作弊检测技术的主题爬虫模型,并实现了antiSpam主题爬虫算法,使主题爬虫具有了反作弊的功能,提高了主题爬虫下载页面的主题相关度,增强了主题爬虫的适应性。2.本文将Web文本过滤问题转化为Web文本分类问题,提出了两个Web文本分类算法:基于聚类的PSK-means算法和基于模糊认知图的correlation-FCM算法。PSK-means是对传统的k-means算法的改进,它预先将相似数据进行合并,之后再进行聚类分析;correlation-FCM是一种基于模糊认知图的文本分类推理算法,使文本分类成为一个基于文本特征项的权和特征项与类别的相关度构成的模糊认知图进行推理的过程。通过在Gsearch平台上大量实验,验证了算法的有效性。3.本文设计并实现了面向机器学习领域的主题Web挖掘的原型系统Gsearch,用于验证本文中模型及算法的有效性。Gsearch包括Gcrawler主题爬虫模块,分词索引模块,页面评价模块、Gminer数据挖掘模块、查询分析模块及用户界面。它具有跨平台、分布式、高可扩展等特性,实现了Web信息的下载、保存、归档、分析和查询功能。该系统在很多应用领域,包括企业决策支持、行业市场分析、企业管理优化、客户情况分析和构建专业领域知识库等,都广泛应用前景。