基于知识粒度的Web文档聚类研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户：xiaobudian1980

【摘要】

：

飞速发展的互联网(WWW)极大地改变了人们的生活, 它已经成为人们交流思想和获取信息的主流性的渠道。在这浩瀚无边的网络数据的海洋中潜藏着大量有价值的知识,从这个海量数据

【作者】

：

黄发良

【机构】

：

广西师范大学

【出处】

：

广西师范大学

【发表日期】

：

2005年期

【关键词】

：

数据挖掘 Web 挖掘 Web 文档聚类粗糙集知识粒度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

飞速发展的互联网(WWW)极大地改变了人们的生活, 它已经成为人们交流思想和获取信息的主流性的渠道。在这浩瀚无边的网络数据的海洋中潜藏着大量有价值的知识,从这个海量数据源中快速高效地获取有用知识是包括企业、个人等在内的所有用户必须要面临并解决的问题。于是,运用数据挖掘(Data Mining)技术进行Web 数据挖掘(Web Data Mining)成为数据分析领域中的一个重要研究热点,引起了专家学者们的广泛关注。经过近十年的成长,Web数据挖掘取得了丰硕的成果,许多相关技术已经趋于成熟稳定并在实际生产和生活中得到了很好的应用,例如搜索引擎给信息猎取的人们带来极大的便利,电子商务已为工业企业界提供了一种全新的经营方式。与传统数据相比较,网络数据具有结构复杂、形式多样与内容广泛等特点,而且用户对Web 数据挖掘的功能需求是五花八门的,这对数据分析领域提出了更大的挑战。Web 数据挖掘可以粗略地分为三个部分:内容挖掘、使用挖掘和结构挖掘。它们采用的主要技术有:关联分析、时序分析、聚类分析等。其中,Web 数据聚类分析是Web 数据挖掘的一个核心的基础研究课题。聚类分析具有压缩搜索空间、加快检索速度等多方面的作用。它能帮助知识工作者高效而准确的发现与某个文档最相似的文档;提高信息检索系统的返回率(Recall)和精度(Precision);很好地提高搜索引擎的个性化程度。在网络上最常见的也是最重要的一种数据形式就是以标记语言表示的Web 文档。因此,对Web 文档进行聚类分析是一项非常重要并且很有价值的工作。本文在深入理解现有的Web 数据挖掘技术,尤其是Web 文档聚类分析技术的基础之上,分析了传统文本表示模型与文本聚类算法,分析了现有表示模型与现有聚类算法的优点与缺陷。为了克服现有聚类算法的不足,本文将引入知识粒度理论,提出了基于知识粒度的Web文档聚类方法。本论文的研究工作主要包括以下几个方面: (1) 传统的Web 聚类方法主要基于“文档—特征词”二级知识粒度的,这样会导致“假相关”的聚类结果,因此,本文提出了基于多级粒度的Web 文档表示机制及理论,并给出一个具体的基于多级粒度的Web 文档表示模型:“文档—段落—特征词”三级粒度表示模型(简称为“D-P-T”表示模型); (2) 在这种表示模型中,我们注意到,基于VSM 的相似度量计算一般采用“特征词—特征词”、“文档—文档”等方法,这会导致大量“零相似”的产生,基于这些问题,我们引入容差粗集理论,提出了基于粗集的文本表示扩展模型:EVSM; (3) 在聚类算法的选择过程中,既考虑到传统K-means 聚类方法适合海量文档集的处理,又考虑到它对孤立点数据比较敏感(这对非球形数据的聚类效果不够理想),因此,我们在传统K-means 的基础上提出了一种改进的K-means 聚类算法:NK-means。 (4) 最后,我们提出并实现了一个用于Web 数据分析的平台WebAnalyser,并进一步在此平台实现了用于Web 文档聚类分析的WCBGK 算法。

其他文献

基于outlook的电子邮件加密和完整性验证的设计和实现

随着Internet的快速发展，电子邮件也得到了越来越广泛的应用。然而传统的电子邮件存在的若干不安全因素(如邮件可能在不为通信双方所知的情况下被读取、篡改和伪造)，使重要需要

学位

outlook电子邮件完整性验证邮件加密安全性

提升机闸控参数测试方法研究

本文通过对提升机闸控系统及其现有闸控参数检测方法的分析,提出了一种在提升机低速运行时,通过切断电源、施加制动闸,检测施闸后的行程和速度图,依据提升机制动效果,测试出

学位

提升机闸控系统制动力矩空动时间DSPPC

足球机器人视觉系统的研究与设计

　　本文阐述MiroSot系列足球机器人视觉子系统的设计与研究。文中首先介绍了视觉子系统设计的原理，对图像处理技术中的彩色图像分割、视觉跟踪以及图像畸变校正等进行了方案

学位

足球机器人机器人视觉图像分割视觉跟踪图像校正识别速度

混合遗传算法在服装自动排版中的应用研究

　　本文针对启发式算法和标准遗传算法在求解该问题时各自的缺陷，结合二者的优点，将从实际排版经验得到的启发式信息引入标准遗传算法，建立了一种启发式混合遗传算法，将问题的解

学位

自动排版服装CAD启发式搜索遗传算法服装自动排版

企业级定量化软件生产率过程模型研究

软件质量和生产率是软件企业成功的两个关键因素，本文选取软件瞬时生产率作为研究对象，在企业内部进行度量方案的设计和实施，并使用数理统计的回归分析方法，对采集的数据进行分析

学位

软件工程软件生产率数学模型软件度量过程改进

基于SIP的媒体服务器的设计与实现

以软交换为核心的下一代网络(NGN)通过业务与呼叫控制分离以及呼叫控制与承载分离实现相对独立的业务体系，提供开放的API接口，支持不同带宽、实时的或非实时的各种媒体业务使用

学位

网络技术软交换媒体服务器

对基因本体语义扩展及其基于描述逻辑推理的研究

　　本系统主要包括使用描述逻辑推理机作为推理模块，使用数据库作为保存实例的存储空间，将不同技术结合实现基因实例的查询。　　本文的原型系统使用FaCT和Racer[5]作为描述逻

学位

基因本体描述逻辑实例检索语义逻辑推理

网格计算下的服务搜索策略研究

网格(Grid)技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网络虚拟环境上的高性能资源共享和协同工作,消除信息孤岛和资源孤岛。网格的作用是将分散在网络上的信

学位

网格计算OGSA服务路由器资源管理服务搜索

关于提高T细胞表位预测性能的智能计算方法的研究

大量研究表明：病原体感染、肿瘤发生发展、自身免疫性疾病的发生发展和组织器官移植排斥都与T细胞抗原识别和活化异常或偏离相关。T细胞表位(Tcellepitope)是指抗原经过抗原提

学位

生物信息学T细胞表位智能计算机器学习数据挖掘知识获取神经网络

支持协作设计的工程数据库并发控制机制的研究

随着Internet的飞速发展,协同设计系统从局域网环境扩展到广域网的环境。并发控制机制是数据库事务管理中非常重要的一部分,其性能的优劣是衡量一个数据库系统功能强弱和性能

学位

有序相容多版本并发控制多粒度协同设计

基于知识粒度的Web文档聚类研究

与本文相关的学术论文