基于机器学习的主题Web挖掘技术

被引量 : 0次 | 上传用户:waxizhaojing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,获取潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。但当用户面对这个海量、异构、半结构化的信息库时,常常发现要查找到所需的信息要耗费大量的时间和精力,甚至难以找到,造成了“信息过载、知识匮乏”的现象。主题Web挖掘是近几年内兴起的一个被广泛关注的研究课题。它利用主题页面在Web上的分布特点,根据用户或系统定义的目标主题,以智能的方法在线爬行Web页面,收集与目标主题相关的页面,并对收集到的页面进行智能分析和处理,最后将处理的页面集合以灵活方便的检索方式提供给用户使用。许多项目的研究结果表明,主题Web挖掘方法能够保持较高的主题相关度,提高查询的精度。这为提高用户查询效率,提供了一个新的研究方向。本文的贡献和创新工作主要体现在以下几个方面:1.本文研究和分析了Web挖掘技术和机器学习理论。Web挖掘根据挖掘对象的不同被分为三类,Web内容挖掘、Web结构挖掘、Web使用记录挖掘。文中介绍了主题Web挖掘的理论及当前的研究现状,结合主题Web页面在网络中的分布特征,阐明了进行主题Web挖掘的依据及存在的困难。机器学习是人工智能领域的一个重要分支,它主要研究计算机怎样模拟或实现人类的学习行为,有目的地自动增进其性能,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。本中主要研究了机器学习理论,对机器学习的模型、分类、及发展历程作了介绍。同时,对机器学习在Web挖掘领域的应用前景作了描述。2.Web爬虫是一类可以通过下载Web页面、分析页面内容、并跟随其中的链接来递归遍历Web的计算机程序。主题Web爬虫能够根据用户或信息检索定义的目标主题,以智能的方式在线爬行Web,在有限的时间和空间资源条件下,收集到尽可能多的主题相关Web页面。如何有效地控制主题爬虫爬行策略是影响Web挖掘成功的最重要因素之一。本文结合机器学习理论,引入反例样本学习理念,提出一种新的主题爬虫爬行策略。实验证明该策略能有效的提高查询的收获率。3.Web页面重要性的计算是进行Web挖掘的一个重要问题。本文在原有HITS算法的基础上,加入了内容相关度的计算,提出了一种新的计算页面重要性的算法-WHITS算法。4.本文设计了基于机器学习的主题Web挖掘系统,并对各个模块的作用进行了介绍。该系统能够根据用户的查询请求进行页面收集,对收集到的页面计算其重要性,最后把主题相关且重要的页面反馈给用户。同时,可根据用户的反馈信息,进行进一步的系统调整。
其他文献
随着我国房地产行业市场化进程的不断深入,拥有一支高素质、高效率的营销团队,已成为房地产开发企业决胜市场的关键。营销团队作为房地产开发企业的核心职能部门,其工作绩效水平
中等发达地区农村儿童是生活在农村这一特定背景之中的群体,由于他们自身生理和心理发展的特点与他们生活的地区、家庭等特征,如果入学准备教育不足,那么他们在进入小学后不可避
<正> 太长的文章没人喜欢看,太婆婆妈妈的话反而让人记不住,倒不如那些简洁、明快、朴实的文稿,一是一,二是二,单刀直入,板上钉钉,句句说到点子上,让人印象深刻。拘泥于"文章
<正>文风不实是公文写作的大忌,也是形式主义的具体表现。公文写作要让领导认可、群众满意,达到推动工作的目的,必须坚持"五有"。"言之有谋"不短视。"凡事预则立,不预则废。"
期刊
分析解读言语幽默的"认知语用工作模型"是在对概念整合理论和关联理论进行互补性研究并将二者加以整合的基础上提出来的。在借鉴并改进这一模型的基础上,最新研究又推出了"言
在城市化日益加快的今天,城市发展对土地的需求不断增加。我国人多地少的国情决定我们必须要集约利用土地,越来越多的部门开始意识到城市土地集约利用的重要性,许多地区已经
伯明翰学派是以英国伯明翰大学当代文化研究中心为主的一个文化研究流派,以其在文化研究方面卓越成就开启了英语世界的文化研究先声。伯明翰学派的媒介文化理论是大众传播批