中文文本聚类的评价与改进研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:wb2062182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类作为一种知识发现的重要方法,它广泛地与中文信息处理技术相结合,应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘中的有效应用,它根据文本数据的不同特征,按照文本间的相似性,将其划分为不同的文本簇。其目的是要使同一类别的文本间的相似度尽可能大,而不同类别的文本间的相似度尽可能的小。整个聚类过程无需指导,事先对数据结构未知,是一种典型的无监督分类,因此,最终的聚类结果需要进行有效性验证和质量评价。由于文本是一个特殊的数据对象,目前研究中对文本聚类分析结果的评价机制不统一,尚无得到普遍认可的科学评价机制及与之相关的深入研究。在聚类改进方法中,绝大多数研究者投入到聚类算法研究,却忽略了聚类结果带来的信息。虽然经过众多研究者努力,中文文本聚类研究取得了一定的进展,但仍然存在很多问题亟待解决,尤其在文本聚类评价及其改进方面。本文首先对文本聚类和文本分类技术进行了简单的介绍,比较了各自的优缺点。再在研究文本聚类过程的基础上,分析了可能影响聚类结果的各个因素,特别对文本表示模型、文本相似度计算方法和文本聚类算法选择三方面因素进行了较详细的论述。然后,通过回顾已有的文本聚类评价指标,本文分析了其应用特性和优缺点,针对现有评价方法存在的问题,特别是基于人工标注的评价指标之应用局限性,论文提出了一种新的基于吻合度的文本聚类结果评价方法。该评价方法从聚类结果的稳定性角度出发,通过比较前后聚类结果的吻合程度来判断聚类效果。同基于人工标注的评价方法相比,方法不仅有效避免了人工标注类别环节,而且能正确评价不同的文本聚类结果。实验结果验证了方法的有效性和应用性。受聚类评价过程的启发,本文尝试从聚类结果出发,结合分类算法对数据集重新分类,提出了一种基于迭代分类的聚类结果改进方法。该方法巧妙地结合了聚类和分类两种独立的开采方法,使其相得益彰,将聚类结果的优化过渡到分类层面。通过引入迭代分类思想,使得最终聚类结果在单一聚类算法得到的初始结果基础上有了较大的改善,且适用于不同的聚类算法,具有良好的普适性。本文设计了空间数据聚类和文本数据聚类实验,其测试结果验证了方法的正确性。
其他文献
冠字号码可以给人民币作一种标示作用,每一张人民币上都对应一个唯一的冠字号码。据此,金融部门可以建立适当的管理机制,追踪人民币的使用情况,人民币冠字号码的自动识别系统
本研究基于长城信息湘计海盾有限公司的项目“VxWorks下的1394软件包”,在FreeScale PowerPC7448和VxWorks平台上设计1394接口驱动以及1394DV应用。VxWorks是美国风河(WindRiv
作为一种全新的信息获取和处理技术,无线传感器网络有着广泛的应用前景,而众多的应用都是基于节点位置信息的,节点定位技术已成为传感器网络的支撑技术之一。因此,节点定位技
科学计算可视化(Visualization in Scientific Computing, ViSC),指的是利用计算机图形学、图像处理技术,将科学计算过程中产生的数据及计算结果转换为图形图像在屏幕上显示
森林防火应急指挥系统将计算机技术、GPS技术、通信技术应用于现代森林防火应急指挥中,是计算机应用领域一个研究方向,得到了广泛重视。森林火灾具有突发性、地形相关性和高
Web2.0应用程序以其界面友好、功能丰富、实用性强等特点受到越来越多Web应用开发者和使用者的青睐。基于Web2.0应用程序的特点,它允许接受不受信任的来源,导致针对Web2.0应
本文对基于NetFlow的网络管理系统NBOS(NetworkBehavior Observation System)进行了研究。该系统的工作目的是为了管理网络服务质量和监控网络安全状态。论文用并行化的方式
利用基因表达数据分类对癌症等恶性疾病进行识别,是数据挖掘技术在生物医学领域内的一个典型应用。决策树算法作为一种基础的机器学习算法,由于存在着理解性强,算法结构简单
深空探测集中显示了一个国家的科技发展水平和综合国力,在科学、经济、军事和政治上都有巨大意义。我国制定的空间科学发展“十五”、“十一五”计划,并已开展了包括月球探测
学位
传统的入侵检测研究很少考虑网络用户的意愿和行为规律,对攻击动机缺乏解释。这造成现有的入侵检测部署缺乏针对性,误判和漏判概率非常高,因此有必要引入新的研究方法和理论对攻