基于Web内容挖掘的网页分类与过滤研究与应用

来源 :中南大学 | 被引量 : 0次 | 上传用户：luoxiaozhang

【摘要】

：

万维网(WWW)目前是一个巨大的、分布广泛的全球信息服务中心,它涉及到新闻、财经、广告、商务、文化、教育等信息服务。然而面对复杂而庞大的万维网,多数用户感到力不从心。

【作者】

：

彭希鸿

【机构】

：

中南大学

【出处】

：

中南大学

【发表日期】

：

2003年期

【关键词】

：

数据挖掘 Web挖掘分词分类网络机器人

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

万维网(WWW)目前是一个巨大的、分布广泛的全球信息服务中心,它涉及到新闻、财经、广告、商务、文化、教育等信息服务。然而面对复杂而庞大的万维网,多数用户感到力不从心。如何有效地帮助用户从WWW上发现他们感兴趣的资源,已经成为一个迫切需要解决的课题。根据中南大学校园信息港建设目标,我们设计和开发了CSUIHWD(中南大学信息港Web挖掘)系统。通过CSUIHWD对那些感兴趣的网页进行采集、过滤处理后,自动按主题归类,在中南大学信息港网站发布。CSUIHWD补充了校内网站的资源,加大了对Internet上资料的利用,并为建立智能搜索引擎打下了很好的基础。论文首先介绍了数据挖掘和Web挖掘的一些基本概念、方法和技术,阐述了什么是数据和Web挖掘,为什么要进行挖掘。并介绍了CSUIHWD基于Web内容挖掘的网页分类与过滤技术和系统原型。然后着重对Web内容分类挖掘的一些关键技术进行了阐述,这些关键技术包括:Web网页数据的采集、中文的分词和分类器的建立它们是Web内容分类挖掘的核心。 CSUIHWD由CsuRobot执行网页数据的采集,CsuRobot是一个类似于网络机器人的自动网页采集程序,它采用了多线程技术,可以同时执行多个采集任务;设计了反序机械分词词典,提高了逆向最大机械分词算法的分词速度,使用机械分词和统计分词相结合的方法,部分解决了未登录词问题;针对朴素贝叶斯分类算法没有考虑Web的半结构化,对所有的词“一视同仁”,本文考虑了那些对文本分类有特殊贡献的词,增加了它们的权重,对算法进行了改进,试验结果表明,这种改进是有益的。最后对本文的工作进行了总结,并确定了以后进一步研究方向。

其他文献

数据立方的存储组织与索引

数据立方的巨大尺寸为它的存储和维护带来许多难题,并且导致了巨大的查询代价.为了从根本上解决这些问题,需要探索有效的存储组织方法,尽可能缩小数据立方的存储开销;同时辅

学位

联机分析处理数据立方浓缩数据立方数据小方多维数据立方索引范围查询

群进化策略和结盟合作模型的应用研究

在互联网上每天都有大量的数据产生，对于这些拥有不同特性的数据，该如何建立一种算法来解决聚类问题呢？依据这个问题我们提出的基于群进化策略模型的模糊聚类算法，该算法可以在聚

学位

群进化策略结盟合作模糊聚类局部最优值收敛速度

基于J2EE的选课系统

随着网络技术的发展和用户要求的不断提高，不受时间、空间限制B／S结构的网上选课系统取代原有的C／S结构的选课系统已成为一种趋势。本文首先简要介绍了面向对象的系统开发平台J2

学位

选课系统J2EEUMLRUP设计模式

嵌入式系统内核软件的研究

系统BIOS技术是直接操作计算机硬件设备的底层核心技术。合理裁减系统BIOS，加快系统BIOS启动速度，对满足某些时间约束苛刻的嵌入式应用将具有重要的作用和意义。本文结合横

学位

嵌入式系统BIOSPOSTLogoDiskOnChipLinux

本体论在信息检索中的应用研究

随着网络信息的急增,信息检索工具将扮演着越发重要的角色.借助于信息检索工具,人们可以快速、准确地查找到所需的信息.查全率和查准率是衡量信息检索工具的重要标准,目前基

学位

本体论信息检索模型语义网络标注

短消息在无线监控与数据采集方面的应用

我国移动通信的发展已经步入一个高速增长的时期，短消息作为GSM系统中最为简单和方便的数据通信方式，其业务和应用正得到非常迅猛的发展。无论是通信设备制造厂商、ICP，还是电信

学位

GSM短消息无线监控数据采集

基于网格集群的能量有效多跳路由协议研究

无线传感器网络能够实时的感知复杂区域的环境状态，以自组织的网络形式将采集的数据发送给汇聚节点。近些年来，无线传感器网络技术快速的发展使得无线传感器网络得到广泛应用。

学位

网格集群能量有效多跳路由协议网络生命周期无线传感器网络

基于使用质量的数据质量模型与度量方法研究

随着大数据的发展，大量的开源数据在网上公布。另外，还有大量的有偿使用数据被当作商品进行交易。然而，这些数据中存在很多的质量问题，如不完整性、不一致性、不正确性等，这些问题

学位

电子病例知识库数据集使用质量

串行程序并行化技术研究与一种新实现构想

随着计算机技术的飞速发展，并行计算的应用领域也越来越广。并行计算机从以前的大型专用向量机，发展到并行多处理器系统，以及现在比较流行的工作站机群系统。并行程序设计方式也

学位

并行化中间代码虚拟机依赖性分析

基于物体属性递进式表达的三维选择技术

学位

基于Web内容挖掘的网页分类与过滤研究与应用

与本文相关的学术论文