基于语义引力及密度分布的Web文本聚类算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户：zhzh06014201

【摘要】

：

随着网络技术的不断发展,Web信息资源的极大丰富,如何高效地获取互联网上的资源以及对资源的有效分析处理,越来越成为数据挖掘工作亟待解决的问题。一些较为传统的方法仍然采

【作者】

：

李政涛

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2011年期

【关键词】

：

数据引力相似度计算层次聚类网页解析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的不断发展,Web信息资源的极大丰富,如何高效地获取互联网上的资源以及对资源的有效分析处理,越来越成为数据挖掘工作亟待解决的问题。一些较为传统的方法仍然采用通用的网络蜘蛛程序对海量信息进行采集,然而这样的采集结果是粗糙的,必然存在着大量的噪声数据,对数据的进一步分析处理带来不必要的影响。与此同时,一种良好的聚类算法也是文本分析过程的重要组成部分,面对Web文本的高维性特征,一些基于距离的相似度度量方法在某些方面已经体现出不足之处。例如在文本特征词空间中,由于受到向量的高维性影响必然存在着大量模很小,并且大部分特征位上的数值为零的向量,经过计算会发现,任何具有该特征的向量间相似度都很大,但是从文本语义上分析,文本所表述的内容并不相似,这正是高维数据与低维数据在向量表示上所体现的明显不同。因此基于一种适合高维文本相似性计算的方法,并能够有效地提高大规模Web文本集聚类准确性算法是本文主要的研究目标。基于上述分析,本文从Web文本采集过程入手,通过在数据采集过程中添加对文本解析与内容的相关性评估的步骤,针对高维Web文本的特点提出了一种数据基于引力为相似度衡量标准的计算方法,并以此为主线,对Web文本聚类算法进行了研究,本文主要工作包括以下几个方面：(1)在网络资源采集过程中,对传统网络蜘蛛系统进行了适当的改进,通过在爬行过程中进行网页内容的解析与相关度评价,从而实现初步过滤内容无关的网络资源,保证了下载数据集的有效性和相关性；(2)通过对传统网页解析系统原理的分析,本文提出了一种人工干预的半自动化模板生成工具,该工具的优势在于避免了对网页编码进行分析的复杂工作,同时所生成的模板具有良好的通用性,可以针对具有相同板式结构的一类网页进行有效的内容提取；(3)相似度度量方法中应用最为广泛的是基于欧式距离的度量方法,该方法的优点在于,其具有良好的数学理论依据,通过将文本对象转化为相应的特征词向量后,采用欧式距离度量方法可以直接进行相关的计算与结果的可视化展示。然而,文本向量模型一般具有高维特性,在高维空间中数据的分布无法用低维模型所表示,而数据在高维空间所拥有的特征也不能很好的体现。由此本文提出了一种兼顾欧式距离在低维空间计算优点的数据引力相似性度量方法,该方法的优点在于充分考虑到了传统欧式距离无法体现文本语义这个不足,强调了数据间属性的相关性,使其对不规则分布的样本也有较好的聚类效果；(4)由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题,基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不足,本文提出一种新的基于语义引力及密度分布的聚类算法,将基于划分的聚类与基于密度的聚类方法相结合并予以改进,通过对对象密度的计算,以密度较大的对象为聚类中心进行聚类,从而降低了由于初始聚类中心选择偏差造成的影响,保证了更好的精度。实验结果表明本文提出的算法具有更准确的聚类结果,特别是在文本这样的高维、稀疏的数据中更是如此。

其他文献

几类网络模型及路由算法研究

目前,随着互连网络、复杂网络等网络技术的快速发展,网络模型及其通信效率已成为各领域的研究热点,尤其是在高性能计算、网格计算等方面。网络技术的不断创新使得各种拓扑结

学位

网络模型路由算法互连网络P2P网络复杂网络

基于PSoC的家庭护理医生的实现

血压、体温和脉搏的测量是现代医学普遍应用的技术。　　在血压的测量方面，目前一般医院使用的水银血压计，是基于柯氏法，科氏音法测量血压并不尽如人意：首先，收缩压和舒张压确定比

学位

家庭护理医生PSoC芯片模数转换温度测量血压测量脉搏检查

基于拓扑信息的复杂网络路由策略研究

当今的信息社会通信网络己成为人们生活中不可或缺的工具。然而,生活在网络世界中的人们却经常被由大量并发数据所造成的网络拥塞所困扰,分析和解决网络信息流的拥塞问题受到

学位

复杂网络路由策略有效路径负载均衡社团划分

视频图像中人体运动对象分割提取技术研究

计算机视觉技术得到了国内外广大学者们越来越多的关注。其中有关视频图像中运动对象的分割提取技术是最为基础和重要的一个研究方面。从视频中快速,准确的分割提取出运动目

学位

运动目标分割混合高斯模型图切割阴影抑制

网络控制系统的二维调度策略及协同控制研究

网络控制系统是以网络为传输媒介,将空间不同位置的传感器、控制器、执行器等组成一个实时反馈的控制系统,能够实现带宽资源的共享,已较为广泛地应用在工业控制系统、电气自

学位

网络控制系统优先级调度变采样周期调度二维调度协同设计

多域环境下安全互操作技术的研究

多域系统是多个独立的安全系统协同工作构成的分布式系统,这种协同系统在政府、军事、商业和医疗等领域有广泛的应用。在多域环境中,每个安全系统(自治域)独立管理,通过自治

学位

访问控制多域协同工作安全互操作分离角色角色撤销

软集在不确定性理论中的相关扩展研究

Vagueness or uncertainty is a conception associated with the set. At present, there have been many painstaking mathematical tools to solve this problem, such as

学位

直觉模糊集粗糙集软集合模糊软集不确定性

基于能量优化的Ad Hoc网络路由技术研究

Ad Hoc网络的出现为最终实现任何人可以在任何时间、任何地点、与任何人、进行任何种类的信息交换提供了有效的解决方案[1],其在特殊环境下的作用也是有线网络和蜂窝移动网络

学位

Ad Hoc网络能量网络均衡度均衡流量路由路由度量路由建立

基于驱动层的计算机数据安全防护系统的设计与实现

随着计算机的广泛应用和网络技术的迅速发展，计算机数据在人们日常生活中越来越重要，其安全问题成为日益突出的问题。与此同时，数据安全技术也在快速发展，各种数据加密软件和网络

学位

RBAC模型过滤驱动虚拟磁盘WinSock2SPITDI HOOKNDIS HOOK

基于多头绒泡菌模型的优化蚁群算法及其在旅行商问题中的运用

NP-难问题是计算机科学研究中的主要研究问题之一。Garey提出了若一个问题被定义为NP-难问题,则无法用计算机进行精确求解的论断。该论断为研究人员奠定了计算难解的界限,避

学位

多头绒泡菌模型蚁群算法多目标旅行商问题旅游线路推荐

基于语义引力及密度分布的Web文本聚类算法的研究与实现

与本文相关的学术论文