主题Web挖掘算法研究与应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:penguin669
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网已经和我们生活的各个方面紧密联系在一起了。我们使用它获取信息,与人们进行交流,使用万维网更加高效地工作,进行各项社会活动。如何从Web上快速准确的检索到用户所需信息成为亟待解决的问题。为应对这一问题,在信息检索领域产生了主题Web挖掘这一研究课题。它的基本思想可以概括为:根据用户定义的某一主题,用主题爬虫遍历网络,收集与主题相关的页面,然后将收集到的页面进行智能的分析,最后以友好的检索方式满足对某一特定主题的检索要求。主题Web挖掘涉及多个学科,包括机器学习、信息检索、语言分析、统计学、计算机网络等。主题Web挖掘具有广泛的应用前景,包括专业领域知识库、企业决策支持、客户流失分析、潜在客户分析、企业管理优化、行业趋势分析等,与现有的通用搜索引擎相互补充。本文在分析了主题Web挖掘的研究内容和当前研究存在问题的基础上,将重点研究三个问题:一是如何提高Web文本的分类准确率;二是如何提高主题爬虫的性能,特别是在反作弊方面改进主题爬虫对页面主题判定的准确率;三是根据以上研究,设计并实现了主题Web挖掘的原型系统Gsearch,是一个机器学习方面的主题搜索引擎,通过大量对比实验验证了本文提出的模型和算法的有效性。本文的创新点主要体现在以下几个方面:1.本文在分析当前主题爬虫缺少反作弊能力而影响爬虫准确性的基础上,提出了基于反作弊检测技术的主题爬虫模型,并实现了antiSpam主题爬虫算法,使主题爬虫具有了反作弊的功能,提高了主题爬虫下载页面的主题相关度,增强了主题爬虫的适应性。2.本文将Web文本过滤问题转化为Web文本分类问题,提出了两个Web文本分类算法:基于聚类的PSK-means算法和基于模糊认知图的correlation-FCM算法。PSK-means是对传统的k-means算法的改进,它预先将相似数据进行合并,之后再进行聚类分析;correlation-FCM是一种基于模糊认知图的文本分类推理算法,使文本分类成为一个基于文本特征项的权和特征项与类别的相关度构成的模糊认知图进行推理的过程。通过在Gsearch平台上大量实验,验证了算法的有效性。3.本文设计并实现了面向机器学习领域的主题Web挖掘的原型系统Gsearch,用于验证本文中模型及算法的有效性。Gsearch包括Gcrawler主题爬虫模块,分词索引模块,页面评价模块、Gminer数据挖掘模块、查询分析模块及用户界面。它具有跨平台、分布式、高可扩展等特性,实现了Web信息的下载、保存、归档、分析和查询功能。该系统在很多应用领域,包括企业决策支持、行业市场分析、企业管理优化、客户情况分析和构建专业领域知识库等,都广泛应用前景。
其他文献
随着移动互联网技术的不断发展,工作流管理系统呈现出分布式、松耦合等特性。SOA技术作为目前国际上分布式技术的引领者,本文将传统的工作流技术与SOA相结合,不但解决了工作
P2P(Peer-to-Peer,对等网)在文件共享、内容分发、分布式存储、分布式计算等众多应用领域显示出了独特的魅力,但其开放性、对等性、自主性和无监督性也带来许多特殊的安全问
研究表明,复杂网络普遍存在社区结构,社区内部节点之间具有更加密切的联系。社区挖掘的目的是从复杂网络中挖掘出社区结构,进一步认识网络的拓扑结构和功能,探索网络的动力学
随着经济的发展,汽车数量的增加,公路交通成为我国重要的交通运输途径。日益拥堵的城市交通需要更先进、更有效的交通管理、控制。利用电子信息技术来提高管理效率、交通效率
无线传感器网络路由协议是传感器网络研究的核心问题之一,它反映了无线传感器网络的数据发送方式。一个好的路由协议可以迅速的感知路由,并准确的将数据包发送到目的节点。传
信息系统评估是在信息系统开发、实施完成并已推广应用的情况下,对信息系统建设过程、应用效果及未来适应能力进行综合评估的过程和行为。目前对于信息系统的评价已经形成了
随着社会科学技术的发展,人们安全意识的加强,传统的身份认证方法已不能满足人们对自动身份验证系统的要求,而生物特征是人的内在基本属性,具有很强的稳定性和个体差异性,因
细分方法是曲线曲面造型中的一项重要技术,在计算机辅助几何设计和计算机图形学等领域得到了广泛应用。本文集中探讨了带几何意义的多参数细分法,在细分格式中构造了具有几何
基于计算机视觉的手势识别被广泛地应用在人机交互领域。它能够利用相关算法对摄像机捕获的图像序列进行分析并识别其中的手势。本文主要通过对手势识别的研究实现了一个虚拟
搜索在博弈方面的运用是非常重要的,是得出最优落子点最有效的方法。然而,当前的博弈搜索都是串行执行的,执行时间长,深度不够,不能在有限的、规定的时间内搜索出最佳落子点