基于DBSCAN优化算法的Web文本聚类研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:jewelryt40b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和Web技术的飞速发展,Web已经成为一个海量动态的信息资源库;而文本是信息最重要的载体,研究表明信息有80%包含在文本中。因此人们迫切需要能够从Web文本数据中快速有效地发现资源和知识的工具,而Web文本聚类是一种有效的文本挖掘方法,也是Web数据挖掘中的核心技术之一。本文针对Web文本聚类展开研究,主要工作如下:(1)对Web文本聚类关键技术进行概述,主要分析了网页采集、文本去噪、分词、文本表示和特征降维等文本预处理的相关技术,其中针对TF-IDF方法的不足,提出一种改进的特征项权值计算方法SDI-TF-IDF;(2)在基于向量空间模型中使用的文本相似性度量方法基础上,分析了Web文本聚类算法,对几种典型的聚类方法从多个方面作以比较,并介绍Web文本聚类评价标准;(3)分析了传统的DBSCAN算法思想的局限性,针对建立R*-树复杂耗时及DBSCAN算法对非均匀数据集聚类效果差等缺点,在目前现有的IF-DBSCAN算法的基础上,结合哈希表邻域查询法和核函数聚类,提出了对DBSCAN算法的改进优化方法;(4)最后对采集到的Web文本进行聚类,实验验证了优化算法具有良好的聚类结果。
其他文献
随着软件的应用领域越来越广以及软件规模和软件复杂度的增加,软件调试在软件开发过程中占居越来越重要的位置,并逐渐为软件开发的一个制约瓶颈。程序调试越来越需要依赖复杂
无线传感器网络(Wireless Sensor Network, WSN)是由部署在目的区域内大量的微型传感器节点组成,通过无线通信的方式形成的多跳的自组织的网络系统。近年来,随着无线传感器网
手掌诊病是一种在中医学科中被广泛应用的诊病方法,通过医学专家的多年临床经验发现,哮喘等变态反应性疾病患者大都存在着大鱼际掌纹粗糙的现象。医学专家在临床诊断与研究中
无线传感器网络集多种技术于一身,如传感器技术、分布式信息处理、嵌入式计算以及无线通信等技术。它提供了新的采集数据的方式,将物理世界与信息世界紧密地融合在一起,改变
近年来,伴随着网络技术和视频多媒体技术的快速发展,数字化的视频信息所含有的庞大的数据信息,以及在传输中所需求的巨大带宽资源,给信息的存储和信息的传输带来了巨大的挑战
无线传感器网络是由大量的按需部署在无人值守的监测区域内的廉价微型传感器节点组成的无线自组织网络,它通过传感器节点获得监测区域的物理信息。因此,它可被广泛应用于国防
随着网络通信、计算机科学与信息技术的发展,数据流作为一种新的数据形式在金融数据分析、网络监控、电信数据处理与传感器网络等领域有着广泛的应用。相对于静态数据,数据流
工程陶瓷材料的显微结构对其性能有重要的影响。由于多数材料是不透明的,其几何特征通常不能从块体样品中直接获得,传统方法通过在显微镜下获取样品的二维截面图像,来对其显
随着计算机技术的发展以及人类对移动通信需求的不断增加,下一代无线网络将是一个由各种无线接入技术组成的异构网络。在异构网络中用户将享受更多的服务并可随时随地接入网
受限于目前移动设备计算能力、存储能力和网络支持能力,移动设备尚不能支持普通个人电脑上的规模度的应用程序。应用程序如果要在移动平台上运行,应用提供商必须为移动设备重