基于Web内容挖掘的网页分类与过滤研究与应用

来源 :中南大学 | 被引量 : 0次 | 上传用户:luoxiaozhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网(WWW)目前是一个巨大的、分布广泛的全球信息服务中心,它涉及到新闻、财经、广告、商务、文化、教育等信息服务。然而面对复杂而庞大的万维网,多数用户感到力不从心。如何有效地帮助用户从WWW上发现他们感兴趣的资源,已经成为一个迫切需要解决的课题。 根据中南大学校园信息港建设目标,我们设计和开发了CSUIHWD(中南大学信息港Web挖掘)系统。通过CSUIHWD对那些感兴趣的网页进行采集、过滤处理后,自动按主题归类,在中南大学信息港网站发布。CSUIHWD补充了校内网站的资源,加大了对Internet上资料的利用,并为建立智能搜索引擎打下了很好的基础。 论文首先介绍了数据挖掘和Web挖掘的一些基本概念、方法和技术,阐述了什么是数据和Web挖掘,为什么要进行挖掘。并介绍了CSUIHWD基于Web内容挖掘的网页分类与过滤技术和系统原型。然后着重对Web内容分类挖掘的一些关键技术进行了阐述,这些关键技术包括:Web网页数据的采集、中文的分词和分类器的建立它们是Web内容分类挖掘的核心。 CSUIHWD由CsuRobot执行网页数据的采集,CsuRobot是一个类似于网络机器人的自动网页采集程序,它采用了多线程技术,可以同时执行多个采集任务;设计了反序机械分词词典,提高了逆向最大机械分词算法的分词速度,使用机械分词和统计分词相结合的方法,部分解决了未登录词问题;针对朴素贝叶斯分类算法没有考虑Web的半结构化,对所有的词“一视同仁”,本文考虑了那些对文本分类有特殊贡献的词,增加了它们的权重,对算法进行了改进,试验结果表明,这种改进是有益的。 最后对本文的工作进行了总结,并确定了以后进一步研究方向。
其他文献
数据立方的巨大尺寸为它的存储和维护带来许多难题,并且导致了巨大的查询代价.为了从根本上解决这些问题,需要探索有效的存储组织方法,尽可能缩小数据立方的存储开销;同时辅
在互联网上每天都有大量的数据产生,对于这些拥有不同特性的数据,该如何建立一种算法来解决聚类问题呢?依据这个问题我们提出的基于群进化策略模型的模糊聚类算法,该算法可以在聚
随着网络技术的发展和用户要求的不断提高,不受时间、空间限制B/S结构的网上选课系统取代原有的C/S结构的选课系统已成为一种趋势。本文首先简要介绍了面向对象的系统开发平台J2
系统BIOS技术是直接操作计算机硬件设备的底层核心技术。合理裁减系统BIOS,加快系统BIOS启动速度,对满足某些时间约束苛刻的嵌入式应用将具有重要的作用和意义。 本文结合横
随着网络信息的急增,信息检索工具将扮演着越发重要的角色.借助于信息检索工具,人们可以快速、准确地查找到所需的信息.查全率和查准率是衡量信息检索工具的重要标准,目前基
我国移动通信的发展已经步入一个高速增长的时期,短消息作为GSM系统中最为简单和方便的数据通信方式,其业务和应用正得到非常迅猛的发展。无论是通信设备制造厂商、ICP,还是电信
无线传感器网络能够实时的感知复杂区域的环境状态,以自组织的网络形式将采集的数据发送给汇聚节点。近些年来,无线传感器网络技术快速的发展使得无线传感器网络得到广泛应用。
随着大数据的发展,大量的开源数据在网上公布。另外,还有大量的有偿使用数据被当作商品进行交易。然而,这些数据中存在很多的质量问题,如不完整性、不一致性、不正确性等,这些问题
随着计算机技术的飞速发展,并行计算的应用领域也越来越广。并行计算机从以前的大型专用向量机,发展到并行多处理器系统,以及现在比较流行的工作站机群系统。并行程序设计方式也
学位