【摘 要】
:
近年来,随着互联网技术的不断快速发展,网络中的数据量日益庞大,大多数是以文本的形式存在的。如何有效处理这些海量数据,从中发现有用的信息成为一个迫切需要解决的问题。文
论文部分内容阅读
近年来,随着互联网技术的不断快速发展,网络中的数据量日益庞大,大多数是以文本的形式存在的。如何有效处理这些海量数据,从中发现有用的信息成为一个迫切需要解决的问题。文本挖掘相关研究作为应对这一问题的重要研究而受到越来越多的关注,成为数据挖掘领域研究的热点。但由于文本数据不同于数值数据,自身较为复杂,给相关研究带来较大程度的难度。同时,在文本挖掘相关研究中,文本分类方法由于对样本数据的依赖,实际应用中也不容易得到较好的处理效果。文本聚类作为一种无监督的文本分类处理方式,成为文本挖掘领域一项热门技术研究。文本聚类是聚类算法在文本处理领域的一种应用,其核心内容就是聚类算法,这也是本文研究的重点。在充分研究了文本聚类各项技术基础上,为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK (a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚类效果。本文最后通过Java程序语言对改进的算法进行实现,并在不同大小的文本集上进行文本聚类实验,同时与传统的K-means算法和层次方法中聚类效果较好的Chameleon算法对比。实验结果表明,TCBIBK算法聚类有效性与稳定性都得到较大提高。
其他文献
大数据时代数据的爆炸式增长,为人们发现隐藏在海量数据中的知识,实现数据驱动的科学决策提供了宝贵机会。文本数据作为广泛存在的一种数据类型,蕴藏了大量待发现的知识。文本挖
人体姿态识别是计算机视觉领域的一个重要研究方向,它在众多领域具有广阔应用前景,比如智能监控、高级人机交互、人体运动分析等。但是碍于普通光学图像容易受光照、阴影等外界
近年来,基于点云的岩体三维重建成为岩体工程中的研究热点。由于在数据获取时测量仪器的视野有限或目标场景复杂等因素的限制,目标物体的全部表面信息无法通过一次测量获得,因此
该论文以医疗保险系统为实践背景,探讨了支持应用系统实现的软件复用的关键技术:软件抽象的方法、步骤,应用系统构件化技术,领域构件获取技术,构件管理技术,构件特征描述,构
数字家庭与数字电视是信息产业的重要组成部分,是三网融合政策顺利实施的保障和落脚点。发展数字家庭与数字电视产业,是培育新一代信息技术、推动产业结构转型升级、促进经济发
该文首先叙述了几种最优化方法及其在求解旅行商问题中的应用.这些最优化方法包括:模拟退火算法,Hopfield神经网络,遗传算法,蚁群算法,禁忌搜索,竞争算法,以及混合算法.初步
几何模型去噪是三维几何处理领域的一个基础问题,其目的是从输入的噪声模型中恢复或者重建出高质量的三维几何模型。去噪后的几何模型可被应用到几何处理、计算机动画和渲染等
该文着重研究微软的组件对象模型COM/DCOM和ActiveX应用开发技术.该文深入讨论了COM/DCOM和ActiveX的内在机制和应用集成技术,详细分析了COM/DCOM的接口和组件实现方法,在此
随着互联网的持续发展和日益普及,互联网成了人们生活、工作和学习中不可或缺的一部分。每个用户既是信息的获取者也是信息的提供者,这使得网上的信息呈现几何级增长,涉及面
核桃种植业已经成为云南省农民致富奔小康的骨干产业,核桃种植面积在逐年扩大,但核桃病虫害种类繁多,为害特征各不相同,而由于核桃种植户在核桃病虫害预防和诊治方面的知识比较欠