【摘 要】
:
文本聚类是数据挖掘领域中的一个重要分支,尤其在信息量迅速增长的当今社会,文本聚类能够在人们日常的生产生活中起到重要作用。国内外围绕着文本聚类这一课题进行了大量的研
论文部分内容阅读
文本聚类是数据挖掘领域中的一个重要分支,尤其在信息量迅速增长的当今社会,文本聚类能够在人们日常的生产生活中起到重要作用。国内外围绕着文本聚类这一课题进行了大量的研究,并有了些初步的成果,但是从目前的研究状况来看,文本聚类仍有很多地方需要改进。本文通过对现有研究成果的介绍和对比分析,总结出文本聚类的两个值得改进的关键点:一方面,聚类算法作为文本聚类的核心部分,能够直接影响整个聚类过程的效率和聚类质量,而目前并没有特别适用于文本聚类领域的聚类算法,大部分的算法也无法同时在算法复杂度和聚类质量上有良好的表现;另一方面,大部分的方法未能充分考虑到语义因素对文本聚类的影响,或者在聚类过程中未能有效的融入语义因素,因而得到的聚类结果不够理想。针对如何合理的平衡聚类算法的复杂度和聚类质量这一问题,本文介绍和分析了几个具有代表性的聚类算法在文本聚类领域中的优势和不足,并结合了基于划分的聚类算法和基于密度的聚类算法各自的优点,提出了基于密度的聚类算法DBCKNN。DBCKNN算法利用了k近邻和离群度等慨念,能够迅速确定数据集中每类的中心并自动调节类半径,在保证了聚类效果的基础上提高了聚类的效率针对如何有效的将语义因素融入聚类过程这个问题,本文利用语义对VSM模型进行变换,即基于语义对VSM模型的各维进行扭曲,将原本的正交坐标系基于语义变换为斜角坐标系,然后将文本的特征向量映射到变换后的VSM模型上再进行聚类,相对减小语义相关的特征向量间的语义距离,从而提高了文本聚类的召回率与查准率,并使得聚类的结果更加语义化。本文也通过理论分析和实验验证了所提出算法与方法的有效性和正确性。本文在文章最后对所做的工作做出了合理评价,并对文本聚类领域未来的发展做出了展望。
其他文献
实例推理的核心思想来源于现实中人类处理问题的方式,就是充分利用过去解决问题的经验作为参考来解决同类问题,其中机械产品设计是该思想的一个重要应用领域。基于实例推理的
大数据时代,软件系统规模与应用领域的日益复杂,使得软件动态执行轨迹需要新的处理模式才能成为具有更强决策力与洞察力的信息资产。因此,如何有效地挖掘软件的内在特征,基于
智能通信设备的蓬勃发展,使原本就短缺的频谱资源更是雪上加霜。传统的固定频谱分配策略弊端重重,已无法满足市场需求。融合LTE-A结构的认知无线电网络CRN(Cognitive Radio N
模式匹配技术是计算机领域的研究热点之一。随着网络的发展,模式匹配技术应用广泛于搜索引擎、网络安全和计算生物学等方面。
本文先介绍了当前模式匹配算法的研究现状以
实时操作系统具有对重要性各不相同的任务进行统筹兼顾、合理调度的特点,因此近些年被大量用于嵌入式开发中。在整个实时系统中实时调度算法往往担负着关键控制系统的角色,实
本论文主要提出了一种改进的快速三维凸包构造新算法。在过去几十年凸包算法的研究取得了一系列的进步,如二维的Graham扫描算法,Javis卷包裹(wrapping)算法等等,基于排序的算
随着人工神经网络理论研究的不断深入,因其具有存储、计算和自适应学习等能力,已在许多领域得到广泛应用,利用神经网络模型与算法进行信息处理更是随处可见。MATLAB是当前最
随着我国城市化进程的不断加快,尤其是二十一世纪以来,城市公路交通系统的压力不断加大,传统的人工监控已经不能满足时代发展的需要。因此,智能交通系统的重要性日益显著,特
建筑节能是当今社会普遍关注的热点问题之一,建筑节能控制系统的建立为实现建筑物有效节能提供了一个新的方向。建筑节能控制系统是伴随着智能建筑的发展而产生的,特别与智能
颅骨是人体骨骼中最重要的部分之一,对脑组织起到保护和支撑作用,一旦颅骨缺损或畸形,将给患者的各项生理功能造成障碍。临床上广泛应用的颅骨缺损修复技术主要步骤为借助患