【摘 要】
:
本文主要从文本预处理和文本聚类两方面较为系统的研究了中文文本聚类的全过程。首先介绍了文本聚类关键技术的基本现状,让读者对文本聚类的主要过程有了进一步的了解。针对
论文部分内容阅读
本文主要从文本预处理和文本聚类两方面较为系统的研究了中文文本聚类的全过程。首先介绍了文本聚类关键技术的基本现状,让读者对文本聚类的主要过程有了进一步的了解。针对数据清洗过程对稀有词过滤存在误去的情况,提出了对稀有词过滤的新方法。该过滤方法由于保证了文本特征项的完整性和精炼性,所以提高了文本聚类的效果。然后通过采用词频统计的方法对文本向量进行降维处理,从而得以选择最佳的能够反映文本本身类别特征的特征项,将文本集合表示成为向量空间模型。接下来将改进的模糊C-均值(SUB-FCM)算法应用到文本聚类中,解决了模糊C-均值(FCM)算法对初始值敏感而容易陷入局部最优的问题。经验证,SUB-FCM算法比传统FCM算法迭代次数降低、速度更快,获得的初始聚类中心较好;并且在中文文本聚类中,文本所设计的SUB-FCM文本聚类方法同传统FCM文本聚类方法相比较,无论是在类内部的聚合度还是类别间的相似度上都具有更好的效果。
其他文献
相比于现有的诊断技术,无损非侵入式的声音诊断技术,近年来受到学术界的持续关注。但目前各种声音诊断研究中采集设备多种多样,采集流程各有差别,然而关于采样流程中的因素和
在软件开发中,客户的需求总是变化的,无法在设计时给出一个完美的设计方案,这就要求设计出来的软件具有很高的可维护性和可扩充性,以应对变化。重构技术是解决这一难题的重要
随着计算机和网络技术的不断发展,电子商务行为越来越普遍。在电子商务交易中,为了节省买卖双方为谈判完成交易所花费的大量工作和时间,提高交易效率,有效降低交易成本,有必
图形用户界面(Graphical User Interface)是计算机系统中的一种人机交互技术,该技术的重要内容包括:丰富的图形图像信息、直观的表达方式和用户交互。随着嵌入式设备在人们日
实体间语义关系抽取是信息抽取中的重要环节,目的是通过命名实体对的上下文来确定实体之间是否存在关系以及存在何种关系。作为实体关系抽取的重要分支,人物关系抽取问题受到许
目前,键盘和鼠标是被运用最广泛的人机交互设备,但是其在使用友好度,体验度上面有所局限性。于是触摸屏便成为继键盘、鼠标之后最为普遍接受的输入方式,它方便了人们对计算机
计算机网络的广泛应用给我们带来了方便的同时,也产生了许多意想不到的问题,计算机安全就是其中一个突出的问题。各种恶意代码如病毒,蠕虫,木马等的广泛传播更是对个人用户及
随着互联网和移动手持设备的普及,网络视频已经成为互联网领域最重要的应用之一。网络视频广告带来的巨大利益成为了很多运营商的主要收入。但由于视频中插入过多无关广告,强
随着现代生物学和医学的发展,生物免疫学的研究得到了极大拓展,同时也使免疫学产生了许多交叉学科。近年来,计算机科学和其它工程科学与免疫学交叉研究逐渐成为国际研究领域
随着多媒体技术和网络技术的发展,视频、图像等多媒体信息的传输业务日益广泛的应用于人们的生活。然而在信息的传输通道中,无论是IP网络还是无线移动网络信道,都不可避免的