基于K-Means的文本聚类算法研究

被引量 : 10次 | 上传用户:ah20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网上的文本信息量迅速增长的同时,人们对互联网上的信息进行查阅和整理所耗费的精力与时间也越来越多,在这种背景下,利用文本聚类技术来进行的文本信息的自动归档,并从这些文本信息中提取出主要的特征,可以大大减少手工整理文本信息的工作量,提高文本信息检索的效率,具有非常重要的应用前景与研究意义。本文使用互联网上采集的中文文本作为实验数据集,通过分析在传统聚类算法中数值型数据和文本型数据的差异,不同的相似度度量方式对聚类算法产生的影响,以及聚类结果的有效性评价,提出了一种基于K-Means算法改进的文本聚类算法,该算法从初始聚类中心选择、K值的确定以及文本类簇特征词提取方面进行了研究并提出了相应的改进,这些改进主要包括:第一,使用极大极小值原则来替换传统的随机方法选取初始聚类中心,实验表明该方法可以有效提高聚类结果的准确率、召回率以及F1值,并且可以获得稳定的聚类结果。第二,针对K-Means算法的K值需要事先给出的问题,提出了一种基于聚类有效性指标的评估来确定最佳K值的方法。该方法通过对聚类结果的簇内凝聚度以及簇间分离度的综合分析来确定最佳K值,实验证明该方法可以自动发现较为准确的K值作为文本数据集的类别数。第三,提出了用于文本类簇特征词提取的TF-ICF(Term Frequency-Inverted Cluster Frequency)方法,通过该方法可以对文本类簇中的词的按照权重大小进行排序,从而提取出高权重的特征词。试验结果表明该方法可以提取出文本类簇的有效特征词。最后,将本文所述的基于K-Means的文本聚类算法进一步设计实现成了一个文本聚类系统,该系统以可视化的方式展示了文本聚类后的结果,对于文本聚类以及文本类簇特征词提供了一种友好直观的浏览方式。
其他文献
识字是小学必经的一个阶段,并且经常给教育工作者带来诸多困扰,而识字教学中交互式白板的应用则有助于教学效果的提升。从总体上来看,交互式白板识字具备着许多优势,如技术门
目的探讨十二指肠乳头小切开联合乳头括约肌气囊扩张术(EPBD)治疗胆总管结石的应用体会。方法对2010年1月—2013年1月我院收治的160例明确诊断胆总管结石的患者先行内镜下乳
作为一款面向土木工程的建筑信息模型(BIM)解决方案,Civil 3D不仅包含了AutoCAD的全部功能,而且还可以实现三维动态模型设计,方便了工程建模设计及工程量的计算。本文以土石
文中从分析长江中游荆江段砂石运输船舶突出违法行为的危害入手,提出了治理砂石运输船舶突出违法行为安全管理对策,以期进一步强化安全监管,保障砂石运输安全,促进长江航运快
目的研究1,6二磷酸果糖(FDP)钙盐3种制备方法对收率和钙盐中FDP含量的影响。方法采用直接沉淀法、乙醇沉淀法、离子交换树脂法3种方法制备FDP钙盐并测定钙盐中的FDP含量。结
<正> 病毒引起的中枢神经系统感染受到日益广泛的重视。伴随病毒学、免疫学等方面的新技术在临床上的应用,对于这类疾病的认识也日趋深刻。中枢神经系统的病毒感染性疾患一般
主要从县级图书馆管理层面的创新必要性出发,在肯定县级图书馆现有工作与规划未来蓝图的前提下,对县级图书馆如何实现管理创新进行刍议。希望能够提升县级图书馆在社会主义文
现代经济持续发展、房价不断飙升的背景下,人们对于室内空间的设计要求越来越高。如何在有限的室内面积中合理组织、搭配各功能空间,充分考虑人们对于大空间的向往,是每个设
通过分析HSG系列近共振离心机的振动箱体结构和振动机理,确定了振动力学模型,结合杜芬方程,把系统刚度中分段函数曲线拟合为3次样条曲线,并得出了拟合方程。通过动力学分析计
阅读是一种语言交流方式,是读者与作者的一种语言和心灵的交流,阅读不仅可以丰富教师的专业知识底蕴,还可以给教师以睿智的眼光,深沉的思想,让教师去发现生命的真谛,参悟教师的意义