中文文本聚类的评价与改进研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：wb2062182

【摘要】

：

聚类作为一种知识发现的重要方法,它广泛地与中文信息处理技术相结合,应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘

【作者】

：

楼佳

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2009年期

【关键词】

：

文本聚类聚类结果聚类评价迭代分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类作为一种知识发现的重要方法,它广泛地与中文信息处理技术相结合,应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘中的有效应用,它根据文本数据的不同特征,按照文本间的相似性,将其划分为不同的文本簇。其目的是要使同一类别的文本间的相似度尽可能大,而不同类别的文本间的相似度尽可能的小。整个聚类过程无需指导,事先对数据结构未知,是一种典型的无监督分类,因此,最终的聚类结果需要进行有效性验证和质量评价。由于文本是一个特殊的数据对象,目前研究中对文本聚类分析结果的评价机制不统一,尚无得到普遍认可的科学评价机制及与之相关的深入研究。在聚类改进方法中,绝大多数研究者投入到聚类算法研究,却忽略了聚类结果带来的信息。虽然经过众多研究者努力,中文文本聚类研究取得了一定的进展,但仍然存在很多问题亟待解决,尤其在文本聚类评价及其改进方面。本文首先对文本聚类和文本分类技术进行了简单的介绍,比较了各自的优缺点。再在研究文本聚类过程的基础上,分析了可能影响聚类结果的各个因素,特别对文本表示模型、文本相似度计算方法和文本聚类算法选择三方面因素进行了较详细的论述。然后,通过回顾已有的文本聚类评价指标,本文分析了其应用特性和优缺点,针对现有评价方法存在的问题,特别是基于人工标注的评价指标之应用局限性,论文提出了一种新的基于吻合度的文本聚类结果评价方法。该评价方法从聚类结果的稳定性角度出发,通过比较前后聚类结果的吻合程度来判断聚类效果。同基于人工标注的评价方法相比,方法不仅有效避免了人工标注类别环节,而且能正确评价不同的文本聚类结果。实验结果验证了方法的有效性和应用性。受聚类评价过程的启发,本文尝试从聚类结果出发,结合分类算法对数据集重新分类,提出了一种基于迭代分类的聚类结果改进方法。该方法巧妙地结合了聚类和分类两种独立的开采方法,使其相得益彰,将聚类结果的优化过渡到分类层面。通过引入迭代分类思想,使得最终聚类结果在单一聚类算法得到的初始结果基础上有了较大的改善,且适用于不同的聚类算法,具有良好的普适性。本文设计了空间数据聚类和文本数据聚类实验,其测试结果验证了方法的正确性。

其他文献

基于正则极限学习机的冠字号码识别算法研究

冠字号码可以给人民币作一种标示作用,每一张人民币上都对应一个唯一的冠字号码。据此,金融部门可以建立适当的管理机制,追踪人民币的使用情况,人民币冠字号码的自动识别系统

学位

字符分割冠字识别极限学习机特征提取

嵌入式实时1394数字视频解码算法与优化技术研究

本研究基于长城信息湘计海盾有限公司的项目“VxWorks下的1394软件包”，在FreeScale PowerPC7448和VxWorks平台上设计1394接口驱动以及1394DV应用。VxWorks是美国风河(WindRiv

学位

数字视频解码VxWorks1394接口优化嵌入式系统

移动无线传感器网络自定位算法研究

作为一种全新的信息获取和处理技术,无线传感器网络有着广泛的应用前景,而众多的应用都是基于节点位置信息的,节点定位技术已成为传感器网络的支撑技术之一。因此,节点定位技

学位

移动无线传感器网络RSSIMonte Carlo定位

二维矢量场可视化系统研究与实现

科学计算可视化(Visualization in Scientific Computing, ViSC),指的是利用计算机图形学、图像处理技术,将科学计算过程中产生的数据及计算结果转换为图形图像在屏幕上显示

学位

科学计算可视化二维矢量场关键点流线拓扑MFC

基于3DGIS的森林防火应急指挥系统的研究与实现

森林防火应急指挥系统将计算机技术、GPS技术、通信技术应用于现代森林防火应急指挥中,是计算机应用领域一个研究方向,得到了广泛重视。森林火灾具有突发性、地形相关性和高

学位

森林防火3DGIS可视化系统标绘系统

基于AJAX应用程序的跨站脚本攻击防御方法研究

Web2.0应用程序以其界面友好、功能丰富、实用性强等特点受到越来越多Web应用开发者和使用者的青睐。基于Web2.0应用程序的特点,它允许接受不受信任的来源,导致针对Web2.0应

学位

JavaScriptAJAX有限状态机XSS

网络行为观测系统NBOS的并行化设计和实现

本文对基于NetFlow的网络管理系统NBOS(NetworkBehavior Observation System)进行了研究。该系统的工作目的是为了管理网络服务质量和监控网络安全状态。论文用并行化的方式

学位

计算机网络网络管理数据测量软件工具

基于旋转森林的基因数据分类算法研究

利用基因表达数据分类对癌症等恶性疾病进行识别,是数据挖掘技术在生物医学领域内的一个典型应用。决策树算法作为一种基础的机器学习算法,由于存在着理解性强,算法结构简单

学位

基因表达数据决策树旋转森林核主成分分析代价敏感

深空信息仿真器实现技术研究

深空探测集中显示了一个国家的科技发展水平和综合国力,在科学、经济、军事和政治上都有巨大意义。我国制定的空间科学发展“十五”、“十一五”计划,并已开展了包括月球探测

学位

基于博弈模型的入侵检测关键技术研究

传统的入侵检测研究很少考虑网络用户的意愿和行为规律，对攻击动机缺乏解释。这造成现有的入侵检测部署缺乏针对性，误判和漏判概率非常高，因此有必要引入新的研究方法和理论对攻

学位

网络安全体系结构混合策略贝叶斯修正入侵检测博弈模型

中文文本聚类的评价与改进研究

与本文相关的学术论文