面向线性文本的K-means聚类算法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:mvcexq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
鉴于线性文本内容组织形式的有序性,将有序的主题内容进行正确的划分,用于挖掘文本中隐藏的信息、知识,是一个值得研究的问题.同时,传统的K-means聚类算法在对线性文本进行聚类时,会造成计算复杂度增加以及无穷迭代或聚类结果混乱等一系列问题.针对以上问题,对传统的K-means算法进行研究,将随机初始化中心点的算法进行改进,提出一种随机均匀初始化中心点算法.该算法充分考虑线性文本的组织结构特性,随机化第一个中心点后,均匀地确定其他中心点,保证了文本子主题的完整划分;与此同时,又采用了设定约束规则的等距点归类法
其他文献
分析大学英语写作中存在的问题,概述上下义词、同义词或者同义关系的内涵,结合实例,探讨如何利用语义场理论中的上下义和同义关系灵活、恰当地丰富写作,使文章更加地道。
分析高三英语词汇教学存在的问题及成因。介绍高三英语词汇的特点,结合教学实例,探究在高三英语词汇教学中使用词根词缀教学法的意义。认为词根词缀教学法能帮助学生在短期内
通过分析应对2009年4月6日合肥市肥东县发生3.5级有感地震所开展的在地震速报、震后趋势判定与现场应急等方面的工作效能,探讨省级地震部门在应对大中城市或附近突发有感地震时,如何适应政府和公众社会的需求,建立卓有成效的地震速报与现场应急工作机制,在应对城市有感地震的防灾减灾、安定民心、保持社会稳定等方面给出一些新的思考与启迪。
汶川8.0级大地震发生在由3条NE向断裂带组成的龙门山逆冲走滑断裂系上,造成了以汶川、映秀为中心和其周边地域的严重破坏和人员的重大伤亡。然而强烈地震发生前却未见有可能
分析初中英语阅读教学与写作教学有效融合的必要性,及目前初中英语教学中两者融合过程中存在的问题。结合教学实例,提出阅读教学和写作教学有机融合的途径,即精准培养预习习
地基处理好坏是建筑物是否牢固的前提,当前,国内地基处理的方式多种多样,不同的地基处理方式所涵盖的技术含量不尽相同,施工工艺不尽相同,应用领域不尽相同,用高频液压振动锤施工H
结合高中英语词汇教学实际,例谈将意象图式理论应用于一词多义型词汇、介词、难点词汇教学的策略。认为基于意象图式理论的高中英语词汇教学使抽象的概念以具体的图形呈现,使
概述“数据驱动下初中英语学习成效智能评价实践共同体”系列教研活动的背景、设计框架,分析其特色及成效,总结形成“停课不停研”的佛山实践模式的启示与借鉴之义。指出系列
龙门山断层的抬升模式过去主要有由下部地壳的流动(Lower crustal channel flow,LCCF)模式与脆性地壳的增厚(Brittle crustal thickening)的变形模式。2008年汶川地震后,一般认为