基于知识粒度的Web文档聚类研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:xiaobudian1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
飞速发展的互联网(WWW)极大地改变了人们的生活, 它已经成为人们交流思想和获取信息的主流性的渠道。在这浩瀚无边的网络数据的海洋中潜藏着大量有价值的知识,从这个海量数据源中快速高效地获取有用知识是包括企业、个人等在内的所有用户必须要面临并解决的问题。 于是,运用数据挖掘(Data Mining)技术进行Web 数据挖掘(Web Data Mining)成为数据分析领域中的一个重要研究热点,引起了专家学者们的广泛关注。经过近十年的成长,Web数据挖掘取得了丰硕的成果,许多相关技术已经趋于成熟稳定并在实际生产和生活中得到了很好的应用,例如搜索引擎给信息猎取的人们带来极大的便利,电子商务已为工业企业界提供了一种全新的经营方式。 与传统数据相比较,网络数据具有结构复杂、形式多样与内容广泛等特点,而且用户对Web 数据挖掘的功能需求是五花八门的,这对数据分析领域提出了更大的挑战。Web 数据挖掘可以粗略地分为三个部分:内容挖掘、使用挖掘和结构挖掘。它们采用的主要技术有:关联分析、时序分析、聚类分析等。其中,Web 数据聚类分析是Web 数据挖掘的一个核心的基础研究课题。聚类分析具有压缩搜索空间、加快检索速度等多方面的作用。它能帮助知识工作者高效而准确的发现与某个文档最相似的文档;提高信息检索系统的返回率(Recall)和精度(Precision);很好地提高搜索引擎的个性化程度。在网络上最常见的也是最重要的一种数据形式就是以标记语言表示的Web 文档。因此,对Web 文档进行聚类分析是一项非常重要并且很有价值的工作。 本文在深入理解现有的Web 数据挖掘技术,尤其是Web 文档聚类分析技术的基础之上,分析了传统文本表示模型与文本聚类算法,分析了现有表示模型与现有聚类算法的优点与缺陷。为了克服现有聚类算法的不足,本文将引入知识粒度理论,提出了基于知识粒度的Web文档聚类方法。本论文的研究工作主要包括以下几个方面: (1) 传统的Web 聚类方法主要基于“文档—特征词”二级知识粒度的,这样会导致“假相关”的聚类结果,因此,本文提出了基于多级粒度的Web 文档表示机制及理论,并给出一个具体的基于多级粒度的Web 文档表示模型:“文档—段落—特征词”三级粒度表示模型(简称为“D-P-T”表示模型); (2) 在这种表示模型中,我们注意到,基于VSM 的相似度量计算一般采用“特征词—特征词”、“文档—文档”等方法,这会导致大量“零相似”的产生,基于这些问题,我们引入容差粗集理论,提出了基于粗集的文本表示扩展模型:EVSM; (3) 在聚类算法的选择过程中,既考虑到传统K-means 聚类方法适合海量文档集的处理,又考虑到它对孤立点数据比较敏感(这对非球形数据的聚类效果不够理想),因此,我们在传统K-means 的基础上提出了一种改进的K-means 聚类算法:NK-means。 (4) 最后,我们提出并实现了一个用于Web 数据分析的平台WebAnalyser,并进一步在此平台实现了用于Web 文档聚类分析的WCBGK 算法。
其他文献
随着Internet的快速发展,电子邮件也得到了越来越广泛的应用。然而传统的电子邮件存在的若干不安全因素(如邮件可能在不为通信双方所知的情况下被读取、篡改和伪造),使重要需要
本文通过对提升机闸控系统及其现有闸控参数检测方法的分析,提出了一种在提升机低速运行时,通过切断电源、施加制动闸,检测施闸后的行程和速度图,依据提升机制动效果,测试出
  本文阐述MiroSot系列足球机器人视觉子系统的设计与研究。文中首先介绍了视觉子系统设计的原理,对图像处理技术中的彩色图像分割、视觉跟踪以及图像畸变校正等进行了方案
  本文针对启发式算法和标准遗传算法在求解该问题时各自的缺陷,结合二者的优点,将从实际排版经验得到的启发式信息引入标准遗传算法,建立了一种启发式混合遗传算法,将问题的解
软件质量和生产率是软件企业成功的两个关键因素,本文选取软件瞬时生产率作为研究对象,在企业内部进行度量方案的设计和实施,并使用数理统计的回归分析方法,对采集的数据进行分析
以软交换为核心的下一代网络(NGN)通过业务与呼叫控制分离以及呼叫控制与承载分离实现相对独立的业务体系,提供开放的API接口,支持不同带宽、实时的或非实时的各种媒体业务使用
  本系统主要包括使用描述逻辑推理机作为推理模块,使用数据库作为保存实例的存储空间,将不同技术结合实现基因实例的查询。  本文的原型系统使用FaCT和Racer[5]作为描述逻
网格(Grid)技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网络虚拟环境上的高性能资源共享和协同工作,消除信息孤岛和资源孤岛。网格的作用是将分散在网络上的信
大量研究表明:病原体感染、肿瘤发生发展、自身免疫性疾病的发生发展和组织器官移植排斥都与T细胞抗原识别和活化异常或偏离相关。T细胞表位(Tcellepitope)是指抗原经过抗原提
随着Internet的飞速发展,协同设计系统从局域网环境扩展到广域网的环境。并发控制机制是数据库事务管理中非常重要的一部分,其性能的优劣是衡量一个数据库系统功能强弱和性能